论坛首页 Java企业应用论坛

自然语言处理

浏览 5575 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (2) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-12-27  

最近在公司做数据处理方面的工作,需要研究一下自然语言处理方面的课题,研究了一段时间,也算有所收获,贴一些自己的“成果”。

中文数据处理首先要解决的是分词,自然语言处理的单位是词,通过对有意义的词的统计来标识文本。所以一个好的分词工具是非常重要的,目前应用的是中科院分词工具 java版,速度不敢恭维(毕竟是java处理字节机制同c++不一样),据说是分词效果很不错,只可惜开源版不支持自定义词库,而这功能在处理行业数据方面是非常重要的,下一步研究一下自定义词库问题,其他开源分词podding之类的尚未测试效果。

现在做法律行业方面数据,主要涉及的应用包括文本分类、关键词提取、相似文本检索。google了一下,发现国外有人做了自然语言处理平台方面的工作WVTool,开源,但没有提供中文支持,但平台做的还不错,要增加中文支持也并不困难。结合中科院分词工具ictclas和WVTool做了一个中文文本分类的程序,上面几个功能都可以简单提供,分类效果还算不错,暂时还不支持复分(一个分本分为多个类),主题词提取效果也算可以,如果加用户词典或许效果会好很多,相似文本检索还没有做,运算量太大,但在法律条文排重方面应该是没问题的。

有这方面兴趣的可以交流一下。

ps:javaeye相似文本检索做的很不错,不知道如何实现的?

   发表时间:2008-12-30  
中科院分词工具的奥运版之类的都支持自定义词库的,通过JNI实现,只是不开源
网站上有的下
0 请登录后投票
   发表时间:2009-01-05  
不过据说是相当难用,所以一直没敢用jni来做,电话问了似乎奥运版还要准备收费,不厚道。。。。,有时间自己把自定义辞典实现了
0 请登录后投票
   发表时间:2009-01-06  
呵呵,人家有权利决定是开源还是不开源,是收费还是免费哈
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics