最近在公司做数据处理方面的工作,需要研究一下自然语言处理方面的课题,研究了一段时间,也算有所收获,贴一些自己的“成果”。
中文数据处理首先要解决的是分词,自然语言处理的单位是词,通过对有意义的词的统计来标识文本。所以一个好的分词工具是非常重要的,目前应用的是中科院分词工具 java版,速度不敢恭维(毕竟是java处理字节机制同c++不一样),据说是分词效果很不错,只可惜开源版不支持自定义词库,而这功能在处理行业数据方面是非常重要的,下一步研究一下自定义词库问题,其他开源分词podding之类的尚未测试效果。
现在做法律行业方面数据,主要涉及的应用包括文本分类、关键词提取、相似文本检索。google了一下,发现国外有人做了自然语言处理平台方面的工作WVTool,开源,但没有提供中文支持,但平台做的还不错,要增加中文支持也并不困难。结合中科院分词工具ictclas和WVTool做了一个中文文本分类的程序,上面几个功能都可以简单提供,分类效果还算不错,暂时还不支持复分(一个分本分为多个类),主题词提取效果也算可以,如果加用户词典或许效果会好很多,相似文本检索还没有做,运算量太大,但在法律条文排重方面应该是没问题的。
有这方面兴趣的可以交流一下。
ps:javaeye相似文本检索做的很不错,不知道如何实现的?
分享到:
- 2008-12-27 19:30
- 浏览 1993
- 评论(3)
- 论坛回复 / 浏览 (3 / 5575)
- 查看更多
相关推荐
自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感...
自然语言处理(NLP)是计算机科学领域中与人工智能密切相关的分支之一,它专注于使计算机能够理解、解释和生成人类语言,以便与人进行有效交互。刘秉权教授在哈工大智能技术与自然语言处理研究室工作时,于2006年11...
自然语言处理(NLP)是计算机科学领域与人工智能的一个重要分支,主要研究如何处理和理解人类的自然语言,包括但不限于英语、汉语等。NLP旨在让计算机能够理解、生成、处理和生成这些语言,以便更好地服务于信息处理...
给大家分享一套课程——Python自然语言处理-BERT实战,提供全部课程资料,包括PPT,数据,代码。 Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。...
自然语言处理导论是人工智能研究的重要组成部分,涉及语言学、计算机科学和机器学习等多学科内容。本书共 14 章,涵盖基础技术、核心技术和模型分析,全面系统地介绍了自然语言处理的基础概念、任务和方法。 知识点...
交叉熵是一种衡量两个概率分布差异的方法,在自然语言处理领域有着广泛的应用,尤其是在训练分类器时。假设我们有两个概率分布\( P \)和\( Q \),其中\( P \)是我们想要逼近的真实分布,而\( Q \)是我们的模型预测的...
自然语言处理分词大作业 自然语言处理(NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、处理和生成人类语言。其中,分词是自然语言处理的基础任务之一,目的是将文本数据切割成单个词语,以便进行...
自然语言处理是一门涵盖多个领域的交叉学科,它旨在让计算机理解和生成人类自然语言。本考试卷涉及的内容广泛,包括信息熵、分词方法、句法分析、依存关系分析、自动问答系统、信息检索与信息抽取,以及机器翻译等多...
本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、语言学等多个学科,旨在使计算机能够理解、解释、生成和学习人类的自然语言。《自然语言处理宗论》...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、语言学等多个学科,旨在使计算机能够理解和生成人类自然语言,从而实现人机之间的有效沟通。...
自然语言处理是一门深入探索计算机如何理解和生成人类自然语言的学科。这门课程,编码为CS229,是计算机科学与技术专业的一门专业选修课,针对计算机科学与技术(致远荣誉计划)的学生开放。课程采用中英文双语教学...
自然语言处理(NLP)是计算机科学、人工智能和语言学领域中的一个交叉学科,它研究计算机与人类(自然)语言之间的相互作用。自然语言处理的核心目标之一是让计算机能够理解人类的自然语言,并根据这种理解执行各种...
自然语言处理(NLP)是计算机科学领域的一个关键分支,主要涉及如何使计算机理解、解析、生成和操作人类语言。哈工大的智能技术与自然语言处理技术课程提供了一个全面的NLP学习路径,从基础到高级,涵盖了多个关键...
本科毕业设计项目——自然语言处理敏感文本识别与分类系统设计与实现 1.毕业设计 2.敏感文本分类程序实现 3.人工智能 自然语言处理技术 机器学习 4.训练数据通过 爬虫爬取 已存储于数据库中sample 表中 5.训练机器...
【哈工大自然语言处理课件】是一份由著名教育家、哈工大博士生导师关毅教授精心编撰的自然语言处理(NLP)课程资料,涵盖了丰富的理论知识与实践应用,是NLP初学者乃至专业研究者的重要参考资料。这份课件在信息检索...
《统计自然语言处理》全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、语言学等多个学科,旨在使计算机能够理解和生成人类自然语言,实现人机之间的有效沟通。...
本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一...