中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp
相关问题&文章:
(1)如何用 Python 中的 NLTK 对中文进行分析和处理? 这个问题下的回答也详说了其他的语音处理包
(2)中文分词项目总结
详细介绍
HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
开发语言:Java
网址:hankcs/HanLP
开发机构:大快搜索
协议:Apache-2.0
功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具
活跃度:github star 超过4千5,近期(201711)仍在保持更新
Ansj中文分词:一个基于n-Gram+CRF+HMM的中文分词的java实现.
开发语言:Java
网址:NLPchina/ansj_seg
协议:Apache License 2.0
功能:中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记
性能:分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
活跃度:github star 数量超过3500,近期(2017.11)仍在保持更新
THULAC:一个高效的中文词法分析工具包,具有中文分词和词性标注功能。
开发语言:
网址:THULAC:一个高效的中文词法分析工具包
开发机构:清华大学自然语言处理与社会人文计算实验室
协议:研究目的免费开放源代码,商用目的需洽谈许可证
功能:中文分词和词性标注
感谢石墨用户@hain 的补充
Synonyms: 中文近义词工具包
开发语言:Python
开发机构:个人
协议:MIT
功能:获取近义词集合,句子相似度计算
性能:见网站
活跃度:~1k Star
结巴分词:Python中文分词组件
开发语言:Python
网址:fxsjy/jieba
开发机构:
协议:MIT授权协议
功能:中文分词
FNLP:FNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。
开发语言:
网址: FudanNLP/fnlp
开发机构:复旦
协议:LGPL3.0许可证。
功能:信息检索: 文本分类 新闻聚类;中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别;结构化学习: 在线学习 层次分类 聚类
Genism:Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.
开发语言:Python
网址:RaRe-Technologies/gensim
协议:LGPL-2.1 license
活跃度:github star数超过五千,近期(201711)仍在更新
TextBlob:Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.
开发语言:Python
网址:sloria/TextBlob
功能:情感分析、词性标注、翻译等
活跃度:github star 超过4千,近期(201711)仍在更新
Spacy:spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.
开发语言:python
协议:MIT协议
功能: 功能很多,如tagging, parsing and named entity recognition等
性能:功能强大,支持二十多种语言(然而目前还不支持中文,可以阅读官方文档了解更多信息https://spacy.io/usage/),号称是工业级强度的Python NLP工具包,区别于学术性质更浓的Python NLTK
活跃度:star 超过7千,近期(201711)仍非常活跃
作者:鉴津Jackie
相关推荐
标题中的“ChatGPT”指的是由OpenAI公司开发的一款基于人工智能技术的语言模型,它能够进行自然语言处理,与用户进行对话,甚至编写代码。ChatGPT的爆火,揭示了人工智能(AI)在自然语言处理领域的巨大潜力,尤其是...
3. **行业应用**:企业利用开源数据集进行产品开发,例如语音识别、图像识别、自然语言处理等,从而快速构建原型并优化解决方案。 二、数据集类型及应用场景 1. **图像数据集**:如COCO(Common Objects in ...
最后,"仿Siri的中文语音助理源码"则展示了语音识别和自然语言处理的应用。开发者可以从中学到如何集成语音API,处理语音输入,以及实现基本的对话逻辑。 这些源码覆盖了Android开发的多个方面,包括UI设计、网络...
事件抽取作为自然语言处理中的关键环节,旨在识别文本中的事件触发词和其相关的论元角色,从而帮助我们理解和概括文本的核心内容。随着深度学习技术的发展,许多开源的中文事件抽取算法应运而生,极大地推动了这一...
1. **简洁优雅的语法**:Ruby的语法设计清晰简洁,接近自然语言,易于学习和使用。 2. **面向对象**:Ruby的一切都是对象,包括基本的数据类型如数字和字符串。这种设计使得Ruby具备了强大的面向对象编程能力,支持...
一、开源项目汇总 1. PaLM-rlhf-pytorch:由Phil Wang开发的项目,基于PaLM架构实现了RLHF(人类反馈的强化学习),类似于ChatGPT。这个项目已经在GitHub上获得了超过5.8k的Stars。它的训练流程涉及模型的优化,以...
作为一款免费且开源的软件,R语言拥有强大的统计模块,并且在数据挖掘、机器学习、自然语言处理等多个热门领域都有广泛的应用。 R语言的基本功能包括数据存储和处理系统,数组运算工具,以及一套完整的统计分析工具...
资源包括环境管理、包管理、构建工具、文本处理、自然语言处理、图像处理、OCR、音频、视频、数据库、web框架、权限、电子商务、爬虫、html处理、并发和并行、服务器、网络、密码学、图像用户界面、游戏开发、日志、...
2. 自然语言处理:例如,用于文本分类的IMDB电影评论数据集、情感分析的Twitter数据、机器翻译的WMT数据集以及问答系统的SQuAD。这些数据集用于训练循环神经网络(RNN)、长短时记忆网络(LSTM)和Transformer等模型...
它是数据预处理和构建计算模型的重要工具,尤其是在处理大规模数据集时。 2. **Pandas**: Pandas库提供了一个叫做DataFrame的数据结构,非常适合进行数据清洗、处理和分析。它还支持时间序列功能,对于处理机器学习...
【标签】中的“人工智能”是指利用计算机模拟或延伸人类智能的技术,包括机器学习、深度学习、自然语言处理等。在本项目中,它可能用于构建预测模型,理解用户的观看偏好,或者识别视频内容特征。 “hadoop”是...
8. **人工智能与智能系统**:深度学习、自然语言处理(NLP)、计算机视觉等AI子领域的技术应用和案例分享。 9. **开源社区与项目**:开源软件的发展、社区管理和贡献,以及如何利用开源技术推动企业创新。 10. **...
总的来说,这个开源项目结合了文档处理、数据库管理、Web开发和自然语言处理等多个IT领域的知识,为用户提供了一种自动化文档摘要的解决方案。由于它是开源的,开发者和研究者可以深入研究其内部工作原理,学习并...
接着,"21个深度学习开源数据集分类汇总.pdf"是一个综合性的资源,包含了多个领域的数据集,如自然语言处理、图像识别、语音识别等。这些数据集对于开发和测试深度学习模型至关重要,比如ImageNet用于图像分类,...
以上仅是Python数据科学生态中的一部分,还有诸如Apache Spark的PySpark接口、Featuretools用于特征工程、NLTK和Spacy处理自然语言、NetworkX进行网络分析等众多库。这些工具的结合使用,能够帮助数据科学家高效地...
Hadoop是Apache软件基金会开发的一个开源项目,主要为大数据处理提供了一个分布式存储和计算框架。其核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是分布式文件系统,用于存储...
在当前的数字化时代,人工智能(AI)已经成为科技发展的重要驱动力,它涵盖了机器学习、自然语言处理、计算机视觉、深度学习等多个领域。这份名为“600多个人工智能AI工具汇总.zip”的压缩包文件,显然是一个宝贵的...
- **高级语言**:更接近自然语言,易于理解,通过编译器或解释器转换为机器语言。 - **Java**:一种广泛使用的高级编程语言,强调面向对象编程。 - **C#**:与Java有很高的相似度,适用于多种应用场景。 - **...
在IT领域,特别是计算机视觉和自然语言处理的交叉部分,场景文字检测与识别(Scene Text Detection and Recognition,STDR)是一项关键的技术。Python作为一种强大的编程语言,被广泛应用于这一领域的研究和开发。...
在Java开发领域,行为驱动开发(Behavior-Driven Development,简称BDD)是一种强调以可读性强的自然语言描述软件行为的开发方法。beanSpec就是这样一个为Java开发者提供BDD支持的开源工具。它允许开发者以声明式、...