文本聚类平移算法的几点问题
文本处理,我的最爱---题记
大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:
卢亮的blog。记得当时第二天就看到了carrot2的发布,
carrot2 上使用了多种聚类的算法。
有些人对平移算法嗤之以鼻,比如
这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。
昨天写关于
标签和书签的blog时想到,在改善
新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。
平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:
未登录词识别在算法的具体设计上,还需要考虑以下几个问题:
1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度;
2、平移的方向。我下面例子只实现了单向移动;
3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要;
下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:
B2C,移动不,Google在中国,IT公司,Web1.0,凭什么,任何关系,不好 ,鲍尔默,有三大,现在的, 网易,在中国没,视频网,的名义,是一种,新浪博客,200,ay合作,是个很,马云雅,联想CEO, 新浪,干什么,第一 ,大的一,2.0 ,思文凯,笔记本,eb 2.0,程天宇,王建宙,721,软件产业,在社区,离不开,更重要,Web 2.0,商业化,年博客网,陈彤新,陈一舟,徐静蕾,是一个,web,绝对领,马云网络,CEO马,未来5,网不是,搜索引擎,商业模式,爱立信,做企业,技术不,互联网上,Donews,000万,1000万,李善友,惠普CEO,两年后,投资者,与百度,方兴东互联网,年时间,于技术,的竞争,赫德我,Linux,思科CEO钱伯斯,Web,新联想,我们不,不排除,英特尔CEO,对互联网,杨元庆,鲍尔默微软,可怕的,eBay,互联网创新,泼冷水,投资游戏,把自己,上3G,而不是,互联网产,ube,动互联网,.0 ,思维 ,You,惠普CEO赫德,没有失,的时候,称目前,2.0,1.0是,戴尔CEO,价格战,评论马云, 但是,富豪榜,黄光裕,创业者,新浪的,IDG,我不是,刘克丽,李志高,eBay的,不存在,中国IT,TCL,倪光南,博客的,服务将,风险投资,中国互联网,是Web,0美元,祝志军,曹国伟新浪,张朝阳互联网,IT网站的,eb2.0,周鸿袆,年后要,中移动,WiMAX,周鸿祎风,姜奇平, YouTube,团队 ,igg,规模并购,的威胁,WAPI,掌门人,国公司,张朝阳,鲍尔默微软有,游戏是,Live,尼葛洛庞帝,IPTV,CDMA,曹国伟,犯的错,喻国明,微软C,李开复,丁磊网易将,人博客,广告是,什么都,2.0发展,公司 ,微软有, Web,施密特,国互联网,500,宫玉国,陈永正,在中国,低估了,CEO王,柳传志, 不会,盖茨Google,是未来,Web2.0,薪水一,娱乐的,盖茨公,李彦宏,错误 ,李进良,乔布斯,Xbox,.0的,吴世雄,软件业,IBM,Google CEO,张朝阳博客,5年内,总裁李,很杰出,微软的,新掌门,微软CEO鲍尔默,“抄袭”,500万,的商业,最好的,齐向东,3721,e搜索,微软 CEO,周鸿祎,称百度,中搜CEO陈沛,赛门铁克,小灵通,上市 ,是微软,周鸿祎与, 没有,国软件,庞升东我,新高 ,log,吕本富,陈天桥,中国最,Digg创始人,竞争对手,中国有,吕伟钢,杨致远,犯的错误,史玉柱,百度不,张向宁,lexa,中国3G,将取代,运营商,网站并购,成网络,3G标准,5年后,曹国伟新,王建宙中移动,最困难,CEO,有什么,施振荣,天使投资,王建宙中,00万,李焜耀,收购 YouTube,王雷雷,垄断的,博客不,有今天,英特尔,网络泡沫,李彦宏 ,06年,副总裁,IT网站,本市场,传统媒,Google施密特,王志东,蔡文胜,要坚持,一定能赢,杨元庆联想,没什么,模仿印度,将继续,Web ,网CEO,Google中国,潘石屹,来不是,新浪总编,马化腾, CEO,视频是,做娱乐,六间房,并不是,粉丝网,国际化,收购要,董事会,百度李彦宏,Google,默多克,金蝶徐少春,赛门铁克CEO,2.0 的,.0是,不看好,总编辑,李学凌,1.0,反流氓软件,做三件事,网民都,李东生,副总编,高群耀,是如何,张朝阳不,新兴市场,张本伟,盖茨的,王晓初,惠特曼,企业的,副总裁李,Google还,网络成,网络媒体,Blog,100, 不看好,电子商务,比尔·盖茨, 1.0,明星博客,陈天桥盛大,当当网,创始人W,罗林斯,CEO网络,董事长,联想C,王定标,马云称,古永锵,项立刚,尔CEO,新媒体,不可能, CEO谈,投资人,任正非,雄我不,是错误,后Google,创业的,MSN,郭凡生,微软副总裁,新技术, google,阚凯力,互联网, Web2.0,多的是, 汪延,江南春,中国电信,田溯宁,看好W,新浪总编辑陈彤,什么中国,流氓软件,门户网站,张瑞敏,创始人,的IT,时最易犯,三大因素推动互联网未来发展,将是新,争议人物,周韶宁,五年内,的生活,创新 ,过多少,李开复Google,Vista,10年,中国总裁,中国不, 2.0,马雪征,黄明生,方兴东,钦佩的,周鸿一,两年内,eBay合作,把自己当,中国网,汤美娟,雅虎中国,Mysee高燃,网CEO李,王吉鹏,网络游戏,Google收购YouTube,不是一,TOM,徐东英,
怎么样感觉还可以吧。
我正在实现一个新闻句子提取引擎,做好后放到新闻阅读器里,这样查看高燃语录(2005-2006语录)的时候,可能会更方便。
分享到:
相关推荐
文本聚类是解决这一问题的有效方法,它可以自动识别和组织大量文本数据,帮助我们发现潜在的主题或模式。 2. **数据获取**: 数据是任何分析项目的基础。在这个项目中,数据可能来自各种来源,如社交媒体、新闻...
9. 新文本聚类算法:是一种基于新模型的文本聚类算法,能够解决中文文本聚类问题。 10. 文本分类准确性:是指文本分类的准确性,能够衡量文本分类算法的性能。 11. 文本向量空间模型对分类准确性的影响:是指文本...
本文主要针对几种常见的文本聚类算法进行了详细的介绍,并从各个算法的适用场景、初始参数的影响、算法的终止条件以及对噪声数据的敏感程度等方面进行了全面的比较与分析。通过对这些算法的深入探讨,可以为实际应用...
本文提出了一种改进的k-means聚类算法,旨在解决传统k-means算法在处理中文文本聚类时存在的问题,特别是对初始聚类中心选择的敏感性和处理孤立点文本的能力。通过对算法进行改进,提高了算法的准确性并增强了其稳定...
kMeans文本聚类算法是一种广泛应用的数据挖掘技术,主要用于无监督学习中的分类问题。在这个场景下,我们没有预先标记的数据,而是希望通过数据本身的相似性来自动地将数据分组。kMeans算法的核心思想是通过迭代过程...
text genetic_文本聚类_文本聚类 matlab_文本聚类matlab_遗传算法 聚类"这个资源为研究者和实践者提供了一套基于MATLAB的文本聚类解决方案,利用遗传算法进行智能优化,适用于处理大规模文本数据的分类问题。...
文本聚类是数据挖掘领域的一个...这个项目对于理解DBSCAN在文本聚类中的应用以及掌握聚类算法的实现有很好的实践意义。通过实际操作,我们可以深入理解DBSCAN的工作原理,并学习如何调整参数以适应不同类型的文本数据。
包含KMeans、DBSCAN、LDA和Single_Pass的文本聚类算法程序(python实现)。 详细信息: 基于KMeans的无监督中文文本聚类 基于DBSCAN的无监督中文文本聚类 基于LDA的无监督文本聚类 基于single pass 策略进行聚类,不...
文本聚类算法的分析与比较.PDF 文本聚类算法的分析与比较.PDF
在自然语言处理领域,文本聚类是一种常见的无监督学习方法,...总的来说,Java实现KMeans文本聚类涉及到数据预处理、向量化、聚类算法实现和性能优化等多个方面,理解这些知识点对于提升文本分析项目的效果至关重要。
在C++实现K-means算法进行文本聚类时,有几个关键点需要注意: 1. **数据表示**:文本数据通常需要转换为数值向量形式,如词袋模型(Bag-of-Words)、TF-IDF或词嵌入。C++中可以使用库如Vocabulary Object来创建...
matlab模糊聚类分析(算法源码) matlab模糊聚类分析(算法源码) matlab模糊聚类分析(算法源码) matlab模糊聚类分析(算法源码) matlab模糊聚类分析(算法源码) matlab模糊聚类分析(算法源码) matlab模糊聚类...
综上所述,该文章不仅介绍了基于语义相似度的文本聚类算法,而且尝试在提高聚类效果的同时,解决传统文本聚类算法中存在的高维数据问题,并引入了更为直观和可理解的聚类描述方法。这为今后在文本聚类研究领域提供了...
设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几 组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和...
该方法采用粒子群优化算法找到初始的中心点,以减少算法对输入顺序和初始点的敏感性,并使用改进的模糊聚类算法来消除样本固有的分布不均衡问题,从而精化聚类结果。 5. 算法实现和测试:通过实验验证了改进的模糊...
本文提出了一种自适应模糊谱聚类算法,通过引入自适应算法解决聚类数目需要人工指定的问题,并将该算法应用于文本聚类中进行实验,结果表明该方法可以取得较好的效果。 知识点1:聚类算法的不足之处 传统聚类算法,...
- **其他算法:** 除了K-Means之外,还有许多其他聚类算法可用于文本聚类,如层次聚类、基于密度的聚类(DBSCAN)等,每种算法都有其特点和适用场景。 #### 四、系统实现 1. **系统逻辑模型:** 设计的系统主要包括...
在本案例中,我们将探讨如何使用Python实现K-Means算法来对文本数据进行聚类。K-Means是一种广泛应用的距离驱动的聚类算法,其基本思想是将数据集划分为K个簇,使得簇内的数据点彼此相似,而簇间的差异最大化。 ...