等开学考试过后正式开工,现在先理清一下思路
1.分词
出于效率的考虑还是用最大匹配及其变种
参考文献:
http://xiecc.itpub.net/post/1476/52479
和
<<MMSeg分词算法简述>>
另外还应该有一个算法负责提取新词,专业词汇.
目前的思路是基于概率统计
参考文献:
基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf
新词,专业词库训练材料的来源
可以通过抓取万方中的
标题,摘要,关键字(可以直接加入词库)
万方提供OPML(RSS目录),大大简化我的抓取(更新)工作(feedparser)
不过为了更多的历史数据,有时间还是应该去抓取一下html
聚类是基于关键词的,内容有
1.自动提取文章关键词(tag)
参考文献:
基于文本分类中特征提取的领域词语聚类
2.多关键词扫描
最后是写爬虫,抓取网页,然后聚类(简单向量距离?)
对大网站,可以手工写内容提取规则(BeautifulSoup.py)
然后还可以构建一个网站:)
已完成的东西:
AC算法和其python封装
异步的html抓取
html中噪音去除(不是完美,但也凑合,参见<<从HTML文件中抽取正文的简单方案>>)
分享到:
相关推荐
毕业设计:AP聚类算法毕业设计
毕业设计 最大间隔聚类MMC和多核聚类MKC源码+详细文档+全部数据资料 高分项目.zip毕业设计 最大间隔聚类MMC和多核聚类MKC源码+详细文档+全部数据资料 高分项目.zip 【备注】 1、该项目是高分毕业设计项目源码,已获...
毕业设计:基于C++的AP聚类算法设计与实现 毕业设计:基于C++的AP聚类算法设计与实现 毕业设计:基于C++的AP聚类算法设计与实现 毕业设计:基于C++的AP聚类算法设计与实现 毕业设计:基于C++的AP聚类算法设计与实现 ...
毕业设计选择聚类算法作为主题,表明研究者可能在探索如何利用这些算法解决实际问题,如市场分割、图像分析、文本分类等。 聚类算法的基础是度量数据之间的相似性或距离。常见的距离度量有欧氏距离、曼哈顿距离、...
毕业设计 基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料 高分项目.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足...
《基于聚类的医学图像分割法》是一种在MATLAB环境下实现的图像处理技术,它能够自动对医学图像进行精准的分割。此程序的核心是利用聚类算法,将图像中的像素根据其灰度值或其他特征进行分组,从而将图像的不同区域...
博文链接:https://zsp.iteye.com/blog/201447
毕业设计。Keywords 层次聚类、谱聚类、WordNet
《RBF网络与聚类算法在毕业设计中的应用》 在信息技术领域,RBF(Radial Basis Function,径向基函数)网络作为一种强大的非线性模型,被广泛应用于数据分类和回归问题。尤其是在毕业设计中,它能为学生提供一个...
《MATLAB光谱聚类算法在毕业设计中的应用与实现》 毕业设计是学生学习生涯中的一个重要环节,它要求学生将所学理论知识应用于实践,解决具体问题。在这个过程中,MATLAB作为强大的数学计算和数据分析工具,常被用于...
基于python实现的聚类分析,包含K均值聚类算法、层次聚类算法+源码,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于python实现的聚类分析,包含K均值聚类算法...
可以实现三维医学图像的聚类,里面包含主函数,可以直接运行
在本毕业设计中,我们将深入探讨“基于C++的AP聚类算法”。AP(Affinity Propagation)聚类算法是一种非监督学习方法,用于数据集的无指导分类。相较于常见的K-means等聚类算法,AP算法有其独特之处,如无需预定义...
综合以上信息,这个压缩包提供了一个基于MATLAB的光谱聚类毕业设计实例,涵盖了算法实现、数据处理和版权信息。对于想要学习光谱分析、聚类算法以及MATLAB编程的学者来说,这是一个宝贵的资源。通过阅读和理解源代码...
直接聚类法按照距离最小原则依次合并,但会导致信息损失;最短距离聚类法则考虑了所有类别的最小距离,可能更稳定。 - 通过聚类谱系图展示类别合并的过程,帮助理解聚类结果。 聚类分析的结果可以帮助我们发现数据...
标题中的“毕业设计”暗示这是一项学术项目,主要探讨了数据挖掘领域中的关键词聚类方法。关键词层次聚类和谱聚类是两种常见的无监督学习技术,用于将文本数据组织成有结构的分类体系。WordNet则是一个广泛使用的...