`
zuroc
  • 浏览: 1306249 次
  • 性别: Icon_minigender_1
  • 来自: 江苏
社区版块
存档分类
最新评论

毕业设计"医学信息聚类"的一点思路

阅读更多
等开学考试过后正式开工,现在先理清一下思路

1.分词
出于效率的考虑还是用最大匹配及其变种
参考文献:
http://xiecc.itpub.net/post/1476/52479

<<MMSeg分词算法简述>>

另外还应该有一个算法负责提取新词,专业词汇.
目前的思路是基于概率统计
参考文献:
基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf

新词,专业词库训练材料的来源
可以通过抓取万方中的
标题,摘要,关键字(可以直接加入词库)

万方提供OPML(RSS目录),大大简化我的抓取(更新)工作(feedparser)
不过为了更多的历史数据,有时间还是应该去抓取一下html

聚类是基于关键词的,内容有
1.自动提取文章关键词(tag)
参考文献:
基于文本分类中特征提取的领域词语聚类

2.多关键词扫描
最后是写爬虫,抓取网页,然后聚类(简单向量距离?)
对大网站,可以手工写内容提取规则(BeautifulSoup.py)

然后还可以构建一个网站:)

已完成的东西:
AC算法和其python封装
异步的html抓取
html中噪音去除(不是完美,但也凑合,参见<<从HTML文件中抽取正文的简单方案>>)
1
0
分享到:
评论
1 楼 john2007 2009-01-13  

相关推荐

Global site tag (gtag.js) - Google Analytics