自然语言处理

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 5580 次

锁定老帖子主题：自然语言处理精华帖 (0) :: 良好帖 (0) :: 新手帖 (2) :: 隐藏帖 (0)
作者	正文
cris_jxg 等级: 初级会员性别: 文章: 179 积分: 40 来自: 北京	发表时间：2008-12-27 相关推荐: Python自然语言处理-BERT实战 python中文自然语言处理基础与实战 python自然语言处理实战pdf_dode.zip 自然语言处理期末大作业1 国科大自然语言处理试题更多相关推荐最近在公司做数据处理方面的工作，需要研究一下自然语言处理方面的课题，研究了一段时间，也算有所收获，贴一些自己的“成果”。中文数据处理首先要解决的是分词，自然语言处理的单位是词，通过对有意义的词的统计来标识文本。所以一个好的分词工具是非常重要的，目前应用的是中科院分词工具 java版，速度不敢恭维（毕竟是java处理字节机制同c++不一样），据说是分词效果很不错，只可惜开源版不支持自定义词库，而这功能在处理行业数据方面是非常重要的，下一步研究一下自定义词库问题，其他开源分词podding之类的尚未测试效果。现在做法律行业方面数据，主要涉及的应用包括文本分类、关键词提取、相似文本检索。google了一下，发现国外有人做了自然语言处理平台方面的工作WVTool，开源，但没有提供中文支持，但平台做的还不错，要增加中文支持也并不困难。结合中科院分词工具ictclas和WVTool做了一个中文文本分类的程序，上面几个功能都可以简单提供，分类效果还算不错，暂时还不支持复分（一个分本分为多个类），主题词提取效果也算可以，如果加用户词典或许效果会好很多，相似文本检索还没有做，运算量太大，但在法律条文排重方面应该是没问题的。有这方面兴趣的可以交流一下。 ps:javaeye相似文本检索做的很不错，不知道如何实现的？声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

chencang 等级: 初级会员性别: 文章: 11 积分: 40 来自: 南京	发表时间：2008-12-30 中科院分词工具的奥运版之类的都支持自定义词库的，通过JNI实现，只是不开源网站上有的下
返回顶楼	回帖地址 0 0 请登录后投票

cris_jxg 等级: 初级会员性别: 文章: 179 积分: 40 来自: 北京	发表时间：2009-01-05 不过据说是相当难用，所以一直没敢用jni来做，电话问了似乎奥运版还要准备收费，不厚道。。。。，有时间自己把自定义辞典实现了
返回顶楼	回帖地址 0 0 请登录后投票

xiaoych 等级: 性别: 文章: 116 积分: 168 来自: 杭州	发表时间：2009-01-06 呵呵，人家有权利决定是开源还是不开源，是收费还是免费哈
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: