`
ihuashao
  • 浏览: 4874372 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

文本聚类平移算法的几点问题

阅读更多
文本聚类平移算法的几点问题
文本处理,我的最爱---题记

大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:卢亮的blog。记得当时第二天就看到了carrot2的发布,carrot2 上使用了多种聚类的算法

有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。

昨天写关于标签和书签的blog时想到,在改善新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。

平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:未登录词识别

在算法的具体设计上,还需要考虑以下几个问题:
1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度;
2、平移的方向。我下面例子只实现了单向移动;
3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要;

下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:


B2C,移动不,Google在中国,IT公司,Web1.0,凭什么,任何关系,不好 ,鲍尔默,有三大,现在的, 网易,在中国没,视频网,的名义,是一种,新浪博客,200,ay合作,是个很,马云雅,联想CEO, 新浪,干什么,第一 ,大的一,2.0 ,思文凯,笔记本,eb 2.0,程天宇,王建宙,721,软件产业,在社区,离不开,更重要,Web 2.0,商业化,年博客网,陈彤新,陈一舟,徐静蕾,是一个,web,绝对领,马云网络,CEO马,未来5,网不是,搜索引擎,商业模式,爱立信,做企业,技术不,互联网上,Donews,000万,1000万,李善友,惠普CEO,两年后,投资者,与百度,方兴东互联网,年时间,于技术,的竞争,赫德我,Linux,思科CEO钱伯斯,Web,新联想,我们不,不排除,英特尔CEO,对互联网,杨元庆,鲍尔默微软,可怕的,eBay,互联网创新,泼冷水,投资游戏,把自己,上3G,而不是,互联网产,ube,动互联网,.0 ,思维 ,You,惠普CEO赫德,没有失,的时候,称目前,2.0,1.0是,戴尔CEO,价格战,评论马云, 但是,富豪榜,黄光裕,创业者,新浪的,IDG,我不是,刘克丽,李志高,eBay的,不存在,中国IT,TCL,倪光南,博客的,服务将,风险投资,中国互联网,是Web,0美元,祝志军,曹国伟新浪,张朝阳互联网,IT网站的,eb2.0,周鸿袆,年后要,中移动,WiMAX,周鸿祎风,姜奇平, YouTube,团队 ,igg,规模并购,的威胁,WAPI,掌门人,国公司,张朝阳,鲍尔默微软有,游戏是,Live,尼葛洛庞帝,IPTV,CDMA,曹国伟,犯的错,喻国明,微软C,李开复,丁磊网易将,人博客,广告是,什么都,2.0发展,公司 ,微软有, Web,施密特,国互联网,500,宫玉国,陈永正,在中国,低估了,CEO王,柳传志, 不会,盖茨Google,是未来,Web2.0,薪水一,娱乐的,盖茨公,李彦宏,错误 ,李进良,乔布斯,Xbox,.0的,吴世雄,软件业,IBM,Google CEO,张朝阳博客,5年内,总裁李,很杰出,微软的,新掌门,微软CEO鲍尔默,“抄袭”,500万,的商业,最好的,齐向东,3721,e搜索,微软 CEO,周鸿祎,称百度,中搜CEO陈沛,赛门铁克,小灵通,上市 ,是微软,周鸿祎与, 没有,国软件,庞升东我,新高 ,log,吕本富,陈天桥,中国最,Digg创始人,竞争对手,中国有,吕伟钢,杨致远,犯的错误,史玉柱,百度不,张向宁,lexa,中国3G,将取代,运营商,网站并购,成网络,3G标准,5年后,曹国伟新,王建宙中移动,最困难,CEO,有什么,施振荣,天使投资,王建宙中,00万,李焜耀,收购 YouTube,王雷雷,垄断的,博客不,有今天,英特尔,网络泡沫,李彦宏 ,06年,副总裁,IT网站,本市场,传统媒,Google施密特,王志东,蔡文胜,要坚持,一定能赢,杨元庆联想,没什么,模仿印度,将继续,Web ,网CEO,Google中国,潘石屹,来不是,新浪总编,马化腾, CEO,视频是,做娱乐,六间房,并不是,粉丝网,国际化,收购要,董事会,百度李彦宏,Google,默多克,金蝶徐少春,赛门铁克CEO,2.0 的,.0是,不看好,总编辑,李学凌,1.0,反流氓软件,做三件事,网民都,李东生,副总编,高群耀,是如何,张朝阳不,新兴市场,张本伟,盖茨的,王晓初,惠特曼,企业的,副总裁李,Google还,网络成,网络媒体,Blog,100, 不看好,电子商务,比尔·盖茨, 1.0,明星博客,陈天桥盛大,当当网,创始人W,罗林斯,CEO网络,董事长,联想C,王定标,马云称,古永锵,项立刚,尔CEO,新媒体,不可能, CEO谈,投资人,任正非,雄我不,是错误,后Google,创业的,MSN,郭凡生,微软副总裁,新技术, google,阚凯力,互联网, Web2.0,多的是, 汪延,江南春,中国电信,田溯宁,看好W,新浪总编辑陈彤,什么中国,流氓软件,门户网站,张瑞敏,创始人,的IT,时最易犯,三大因素推动互联网未来发展,将是新,争议人物,周韶宁,五年内,的生活,创新 ,过多少,李开复Google,Vista,10年,中国总裁,中国不, 2.0,马雪征,黄明生,方兴东,钦佩的,周鸿一,两年内,eBay合作,把自己当,中国网,汤美娟,雅虎中国,Mysee高燃,网CEO李,王吉鹏,网络游戏,Google收购YouTube,不是一,TOM,徐东英,



怎么样感觉还可以吧。

我正在实现一个新闻句子提取引擎,做好后放到新闻阅读器里,这样查看高燃语录(2005-2006语录)的时候,可能会更方便。




分享到:
评论

相关推荐

    大学模式识别考试题及答案详解.pdf

    马氏距离具有平移不变性和非奇异线性变换不变性,这使得它在处理不同尺度和方向的数据时仍能保持有效性。线性判别函数的正负和数值大小可以指示数据点相对于超平面的位置,其绝对值越大,数据点距离超平面越远;正负...

    持续数据流可视化.pptx

    2. **时间序列数据的可视化**:通过交互式图表和仪表板,让用户能够自由地平移、缩放数据,从而识别出趋势和异常值。 3. **语义数据流的可视化**:使用图表和知识图谱来展示概念、实体及其之间的关系,辅助用户理解...

    NODEXL 用户使用手册

    - **缩放与比例**:为了让大型网络图更加可读,NodeXL提供了缩放和平移功能,这部分详细介绍了这些功能的使用方法。 #### 四、视觉设计篇:使网络展示更有意义 - **顶点颜色**:通过为不同的顶点分配不同的颜色,...

    Image_processing:作业4

    4. **图像操作**:包括图像缩放、旋转、裁剪和平移等基本操作。这些操作常用于调整图像大小、纠正图像方向或提取感兴趣区域。 5. **色彩空间转换**:图像处理中常需要将图像从一种色彩空间转换到另一种,如从RGB...

    乌兰察布市-察哈尔右翼中旗-街道行政区划_150927_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    张家口市-阳原县--街道行政区划_130727_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    太远市-晋源区-街道行政区划_140110_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    轻量级密码算法LBlock的FPGA优化实现.docx

    轻量级密码算法LBlock的FPGA优化实现.docx

    吕梁市-岚县-街道行政区划_141127_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    Git 资料 progit-zh-v2.1.1.pdf

    Git 资料 progit-zh-v2.1.1.pdf

    张家口市-下花园区--街道行政区划_130706_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    篮球计分器FPGA附程序..doc

    篮球计分器FPGA附程序..doc

    秦皇岛市-卢龙县--街道行政区划_130324_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    【Linux开发】Linux开发相关资源教程:涵盖开发环境搭建、基础命令、编程语言及内核开发全攻略

    内容概要:本文档全面介绍了Linux开发的基础知识、应用场景、环境搭建、常用命令、Shell脚本编程以及C/C++和Python开发等内容。首先阐述了Linux开发的重要性及其在服务器端开发、嵌入式开发和系统运维等领域的广泛应用。接着详细讲解了如何选择合适的Linux发行版并安装系统,配置开发环境,包括安装必要的开发工具和配置SSH服务。文档还深入讲解了Linux基础命令,如文件和目录操作、文件内容查看与编辑、进程管理和权限管理。此外,介绍了Shell脚本编程的基本语法,包括变量、条件语句、循环语句和函数定义。针对C/C++和Python开发,文档分别讲解了编译器安装、程序编写与编译、调试方法及使用虚拟环境等内容。最后,简要介绍了Linux内核开发的相关知识,包括下载编译内核、内核模块开发等,并推荐了相关学习资源。 适合人群:对Linux开发感兴趣的初学者及有一定经验的研发人员,尤其是希望深入掌握Linux开发技能的开发者。 使用场景及目标:①掌握Linux开发环境的搭建与配置;②熟悉Linux基础命令和Shell脚本编程;③学习C/C++和Python在Linux下的开发流程;④了解Linux内核开发的基本概念和技术。 阅读建议:此文档内容丰富,涵盖面广,建议读者根据自身需求选择性阅读,并结合实际操作进行练习。特别是对于初学者,应先掌握基础命令和开发环境的搭建,再逐步深入到编程语言和内核开发的学习。

    石家庄市-石家庄市-石家庄市-石家庄市-街道行政区划_130100_Shp数据wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    石家庄市-石家庄市-石家庄市-无极县-街道行政区划_130130_Shp数据wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    保定市-易县--街道行政区划_130633_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接使用。

    【办公软件应用】Word文档编辑与排版练习题集:涵盖内容编辑、页面布局及高效文档技巧

    内容概要:本文档《word练习题.docx》是一份详细的Word操作练习指南,涵盖了从基础到高级的各种功能。文档分为三个主要部分:内容编辑、页面布局和高效文档。内容编辑部分包括文本格式化、段落设置、项目编号、制表位、边框与底纹等练习;页面布局部分涉及分节符、分栏、页眉页脚、水印等设置;高效文档部分则聚焦于样式管理、导航窗格、题注、书签、超级链接、脚注与尾注、交叉引用等功能。每个练习都有具体的操作步骤,帮助用户掌握Word的各种实用技巧。 适合人群:适用于Word初学者及希望提高Word技能的中级用户,尤其是需要频繁使用Word进行文档编辑和排版的办公人员。 使用场景及目标:①帮助用户熟悉Word的基本操作,如文本编辑、格式设置等;②提升用户的文档排版能力,学会设置复杂的页面布局;③提高工作效率,掌握高效文档管理技巧,如样式应用、题注和交叉引用等。 其他说明:此文档不仅提供了具体的练习题目,还附带了详细的步骤说明,用户可以根据指引逐步完成每个练习。此外,文档中的一些练习涉及到智能文档和Office智能客户端的应用,有助于用户了解Word在企业级应用中的潜力。建议用户按照章节顺序逐步学习,实践每一个练习,以达到最佳的学习效果。

    邢台市-信都区--街道行政区划_130503_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    腐败感知指数(CPI)数据和各种治理指标数据集

    全球腐败感知数据(2000-2023)——3000行 33个指标 关于数据集 该数据集包含3000行和33列,涵盖了2000年至2023年的腐败感知指数(CPI)数据和各种治理指标。它包括国家排名、分数和其他指标,如公共部门腐败、司法腐败、贿赂指数、商业道德、民主指数、法治、政府效率、经济指标和人类发展指数。 这些数据可用于: 腐败趋势分析 腐败对GDP、人类发展指数和治理的影响 跨国比较 数据可视化和机器学习模型 该数据集对研究人员、数据分析师、政策制定者和对研究全球腐败趋势非常有用。

Global site tag (gtag.js) - Google Analytics