浏览 5577 次
锁定老帖子 主题:自然语言处理
精华帖 (0) :: 良好帖 (0) :: 新手帖 (2) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-12-27
最近在公司做数据处理方面的工作,需要研究一下自然语言处理方面的课题,研究了一段时间,也算有所收获,贴一些自己的“成果”。 中文数据处理首先要解决的是分词,自然语言处理的单位是词,通过对有意义的词的统计来标识文本。所以一个好的分词工具是非常重要的,目前应用的是中科院分词工具 java版,速度不敢恭维(毕竟是java处理字节机制同c++不一样),据说是分词效果很不错,只可惜开源版不支持自定义词库,而这功能在处理行业数据方面是非常重要的,下一步研究一下自定义词库问题,其他开源分词podding之类的尚未测试效果。 现在做法律行业方面数据,主要涉及的应用包括文本分类、关键词提取、相似文本检索。google了一下,发现国外有人做了自然语言处理平台方面的工作WVTool,开源,但没有提供中文支持,但平台做的还不错,要增加中文支持也并不困难。结合中科院分词工具ictclas和WVTool做了一个中文文本分类的程序,上面几个功能都可以简单提供,分类效果还算不错,暂时还不支持复分(一个分本分为多个类),主题词提取效果也算可以,如果加用户词典或许效果会好很多,相似文本检索还没有做,运算量太大,但在法律条文排重方面应该是没问题的。 有这方面兴趣的可以交流一下。 ps:javaeye相似文本检索做的很不错,不知道如何实现的? 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-12-30
中科院分词工具的奥运版之类的都支持自定义词库的,通过JNI实现,只是不开源
网站上有的下 |
|
返回顶楼 | |
发表时间:2009-01-05
不过据说是相当难用,所以一直没敢用jni来做,电话问了似乎奥运版还要准备收费,不厚道。。。。,有时间自己把自定义辞典实现了
|
|
返回顶楼 | |
发表时间:2009-01-06
呵呵,人家有权利决定是开源还是不开源,是收费还是免费哈
|
|
返回顶楼 | |