毕业设计"医学信息聚类"的一点思路 - 张沈鹏,在路上... - ITeye博客

`

zuroc

浏览: 1311961 次
性别:
来自: 江苏

最近访客更多访客>>

tiger754

u012363178

xxxcccvvv

surprise

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

honey_fansy：的确，不要自己的支持就说完美支持，我的就不行，别说我的不是fi ...
无js实现text-overflow: ellipsis; 完美支持Firefox
fanchengfei：事件长微博，欢迎转发：http://weibo.com/332 ...
《在路上 …》写代码也需要一点演技 – python2.6 的 class decorator
blued：没有报错，但排版效果一点都没有咋回事。请指教
python排版工具
szxiaoli：耍人呀，效果在哪儿呀
滑动效果
accaolei：这个能监到控子目录吗？，我测试了一下，发现子目录里的文件监控不 ...
windows监控目录改动

毕业设计"医学信息聚类"的一点思路

博客分类：

网络

算法 Python 领域模型 HTML IDEA

阅读更多

等开学考试过后正式开工,现在先理清一下思路

1.分词
出于效率的考虑还是用最大匹配及其变种
参考文献:
http://xiecc.itpub.net/post/1476/52479
和
<<MMSeg分词算法简述>>

另外还应该有一个算法负责提取新词,专业词汇.
目前的思路是基于概率统计
参考文献:
基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf

新词,专业词库训练材料的来源
可以通过抓取万方中的
标题,摘要,关键字(可以直接加入词库)

万方提供OPML(RSS目录),大大简化我的抓取(更新)工作(feedparser)
不过为了更多的历史数据,有时间还是应该去抓取一下html

聚类是基于关键词的,内容有
1.自动提取文章关键词(tag)
参考文献:
基于文本分类中特征提取的领域词语聚类

2.多关键词扫描
最后是写爬虫,抓取网页,然后聚类(简单向量距离?)
对大网站,可以手工写内容提取规则(BeautifulSoup.py)

然后还可以构建一个网站:)

已完成的东西:
AC算法和其python封装
异步的html抓取
html中噪音去除(不是完美,但也凑合,参见<<从HTML文件中抽取正文的简单方案>>)

1
顶

0
踩

分享到：

浪点python之我的地盘 | 帮亲戚家用Django写了一个网站

2008-02-17 13:04
浏览 4093
评论(1)
查看更多

评论

1 楼 john2007 2009-01-13

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

毕业设计：AP聚类算法毕业设计.zip: 毕业设计：AP聚类算法毕业设计

毕业设计最大间隔聚类MMC和多核聚类MKC源码+详细文档+全部数据资料高分项目.zip: 毕业设计最大间隔聚类MMC和多核聚类MKC源码+详细文档+全部数据资料高分项目.zip毕业设计最大间隔聚类MMC和多核聚类MKC源码+详细文档+全部数据资料高分项目.zip 【备注】 1、该项目是高分毕业设计项目源码，已获...

毕业设计：基于C++的AP聚类算法设计与实现.zip: 毕业设计：基于C++的AP聚类算法设计与实现毕业设计：基于C++的AP聚类算法设计与实现毕业设计：基于C++的AP聚类算法设计与实现毕业设计：基于C++的AP聚类算法设计与实现毕业设计：基于C++的AP聚类算法设计与实现 ...

毕业设计基于层次聚类和谱聚类的WordNet语义关系挖掘研究-java.zip: 毕业设计题目建议：《基于层次聚类和谱聚类的WordNet语义关系挖掘研究》一、研究背景随着自然语言处理技术的不断发展，语义关系挖掘在文本分析、信息检索、机器翻译等领域具有重要意义。WordNet作为一种重要的语义...

计算机、毕业设计-聚类算法: 毕业设计选择聚类算法作为主题，表明研究者可能在探索如何利用这些算法解决实际问题，如市场分割、图像分析、文本分类等。聚类算法的基础是度量数据之间的相似性或距离。常见的距离度量有欧氏距离、曼哈顿距离、...

毕业设计基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料高分项目.zip: 毕业设计基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料高分项目.zip本资源中的源码都是经过本地编译过可运行的，评审分达到95分以上。资源项目的难度比较适中，内容都是经过助教老师审定过的能够满足...

基于聚类的医学图像分割法: 《基于聚类的医学图像分割法》是一种在MATLAB环境下实现的图像处理技术，它能够自动对医学图像进行精准的分割。此程序的核心是利用聚类算法，将图像中的像素根据其灰度值或其他特征进行分组，从而将图像的不同区域...

毕业设计.基于特征关键词聚类的医学广告精准投放: 博文链接：https://zsp.iteye.com/blog/201447

毕业设计。Keywords 层次聚类、谱聚类、WordNet.zip: 毕业设计。Keywords 层次聚类、谱聚类、WordNet

rbf.one.rar_RBF_RBF聚类_毕业设计_聚类RBF: 《RBF网络与聚类算法在毕业设计中的应用》在信息技术领域，RBF（Radial Basis Function，径向基函数）网络作为一种强大的非线性模型，被广泛应用于数据分类和回归问题。尤其是在毕业设计中，它能为学生提供一个...

毕业设计MATLAB_光谱聚类算法.zip: 《MATLAB光谱聚类算法在毕业设计中的应用与实现》毕业设计是学生学习生涯中的一个重要环节，它要求学生将所学理论知识应用于实践，解决具体问题。在这个过程中，MATLAB作为强大的数学计算和数据分析工具，常被用于...

基于python实现的聚类分析，包含K均值聚类算法、层次聚类算法+源码（毕业设计&课程设计&项目开发）: 基于python实现的聚类分析，包含K均值聚类算法、层次聚类算法+源码，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用~ 基于python实现的聚类分析，包含K均值聚类算法...

三维图像聚类的文件.zip_三维医学_三维图像聚类_三维聚类_医学图像_图像聚类: 可以实现三维医学图像的聚类，里面包含主函数，可以直接运行

MATLAB-模糊聚类分析思路讲解模糊聚类分析模板: 使用场景及目标：适用于需要对大量带有模糊性的数据进行分类和聚类的研究项目，如市场分析、客户分群、生物医学研究等领域。目标是提高数据分类的准确性和可靠性，提供决策支持。阅读建议：建议读者在阅读过程中...

基于C++AP聚类算法毕业设计: 在本毕业设计中，我们将深入探讨“基于C++的AP聚类算法”。AP（Affinity Propagation）聚类算法是一种非监督学习方法，用于数据集的无指导分类。相较于常见的K-means等聚类算法，AP算法有其独特之处，如无需预定义...

毕业设计MATLAB_光谱方法聚类.zip: 综合以上信息，这个压缩包提供了一个基于MATLAB的光谱聚类毕业设计实例，涵盖了算法实现、数据处理和版权信息。对于想要学习光谱分析、聚类算法以及MATLAB编程的学者来说，这是一个宝贵的资源。通过阅读和理解源代码...

聚类法(系统聚类法动态聚类法模糊聚类法): 直接聚类法按照距离最小原则依次合并，但会导致信息损失；最短距离聚类法则考虑了所有类别的最小距离，可能更稳定。 - 通过聚类谱系图展示类别合并的过程，帮助理解聚类结果。聚类分析的结果可以帮助我们发现数据...

毕业设计。Keywords层次聚类、谱聚类、WordNet.zip: 标题中的“毕业设计”暗示这是一项学术项目，主要探讨了数据挖掘领域中的关键词聚类方法。关键词层次聚类和谱聚类是两种常见的无监督学习技术，用于将文本数据组织成有结构的分类体系。WordNet则是一个广泛使用的...

Global site tag (gtag.js) - Google Analytics