NLP(Natural Language Processing),自然语言处理,今天我们主要来研究一下如何用Python去完成简单的自然语言处理。
NPL可以用来做什么呢?
他能做的事情非常多,例如翻译,垃圾邮件过滤,搜索引擎等等。
今天我们用到的模块有:
NLTK 专门做自然语言处理
bs4 BeautifulSoup ,爬虫的一个框架
html5lib BeautifulSoup解析时用的
matplotlib 数据可视化(使词频统计更加形象的展示)
我们通过简单的pip安装语句就可以完成以上四个模块的安装了:
pip install nltk
pip install bs4
pip install html5lib
pip install matplotlib
以上模块完成安装之后我们需要完善一下nltk的库
在cmd指令窗输入Python(运行Python):
import nltk
nltk.download()
弹出一个界面,把里面的所有模块都安装了(点击all即可),如下图:
之后我们用request去爬某个网页,再使用bs4清洗一下文字,最后再用split()处理一下:
输出结果:
我们现在通过nltk中的FreqDist()方法来统计词频:
输出:(输出结果太多,这里截取部分结果)
感觉太乱了,我们可以画图看看:
freq.plot(20,cumulative=False)
打印结果:
可以看出来Python出现的词频是最高的。
但是从上面的结果我们能看出一些无用的词汇,这时候就需要处理停用词了
清除无效的单词:
这样的效果会比刚刚好一点。
这一期我们就到这里吧
下期见。
分享到:
相关推荐
Python自然语言处理(NLP)是人工智能领域的一个关键分支,主要目标是使计算机能够理解和处理人类的自然语言。在Python中,NLP的实现离不开强大的工具包,其中最常用的就是Natural Language Toolkit(NLTK)。NLTK是...
《Python中文自然语言处理基础与实战》是一本深入浅出的教程,涵盖了使用Python进行NLP工作的各个方面。在本文中,我们将详细探讨该领域的重要概念、工具和技术,并结合实际案例来深化理解。 首先,让我们从Python...
Python中文自然语言处理(NLP)是近年来在大数据和人工智能领域中备受关注的一个重要分支,尤其对于中文文本的理解和分析,Python提供了丰富的库和工具,使得开发者能够高效地进行文本预处理、情感分析、词性标注、...
python - 自然语言处理从入门到实战(1-13 全部代码,可同书籍一起食用。 python - 自然语言处理从入门到实战(1-13 全部代码,可同书籍一起食用。 python - 自然语言处理从入门到实战(1-13 全部代码,可同书籍一起...
《用Python进行自然语言处理》是一本专注于介绍如何利用Python编程语言进行自然语言处理(NLP)的实用指南。自然语言处理是计算机科学的一个重要领域,它涉及到人类语言的理解、生成和分析,使得计算机能够与人进行...
《Python自然语言处理实战》是一本深入探讨Python在NLP(自然语言处理)领域的实践应用的书籍。PDF版本为读者提供了方便的电子阅读体验,同时附带的代码资源则可以帮助读者更好地理解和应用书中的理论知识。这个...
"Python-NLPBeginner自然语言处理入门练习" 是一个针对初学者的教程,旨在帮助他们理解 NLP 的基本概念,并通过实践应用来提升技能。在这个项目中,我们将探讨一系列关键的 NLP 概念和技术,以及如何使用 Python 来...
【Python入门】 Python是一种高级编程语言,以其简洁明了的语法和强大的功能深受程序员喜爱。作为零基础的初学者,了解Python的基础至关重要。在"Python入门"阶段,你将学习到以下关键知识点: 1. **环境搭建**:...
#### 一、自然语言处理(NLP)概述 **自然语言处理(NLP)定义:** - **定义:**自然语言处理(Natural Language Processing, NLP)是一种涉及计算机与人类(自然)语言交互的技术。其目标在于让计算机能够理解、...
### Python入门知识点详解 #### 一、Python简介与特点 Python是一种高级编程语言,由Guido van Rossum创建,以其简洁、清晰的语法著称,适用于多种编程领域,包括Web开发、数据分析、人工智能等。Python的特点包括...
【Python入门Demo-WordCount】是一个适合初学者的Python编程示例,主要目的是介绍如何使用Python进行基础的数据处理,特别是文本分析中的词频统计。在这个Demo中,我们将学习到Python语言的一些基本语法、文件操作、...
在本项目"hanlp-python_spiderpbl_ch11/11.5.py_自然语言处理入门_"中,我们将探讨使用Python进行NLP的实践应用。 `11.5.py`可能是一个章节练习或示例代码,对应何晗先生的书籍关于自然语言处理的部分。这个Python...
* 介绍 Python 的发展方向和应用领域,如数据分析、自然语言处理、社交网络分析、人工智能、深度学习、计算机视觉、网络爬虫、量化交易等 第二章:程序设计与 Python 语言 * 讲解计算机的组成和工作过程 * 介绍 ...
Python的设计哲学注重代码的可读性,它采用了更接近自然语言的英文关键字,使得Python代码相对容易理解。Python语言是解释型的,这意味着它在执行时不需要事先编译,直接由解释器逐行翻译执行。这一特性让Python在...
《Python-兜哥出品一本开源的NLP入门书籍》是一本专为初学者设计的自然语言处理(NLP)教程,由知名IT人士“兜哥”编写并开源分享。这本书籍旨在帮助读者快速掌握Python编程语言在NLP领域的应用,为后续深入研究打下...
教程通过对比烹饪食谱的例子,阐述了计算机无法像人类一样理解自然语言,所以我们需要用计算机能理解的语言——编程语言进行沟通。Python作为一门高级编程语言,适合初学者学习,因为它有着简洁明了的语法结构。 ...
使用场景及目标:本文适合作为 Python 自然语言处理的入门教材,可以帮助读者快速掌握 NLTK 和 Spacy 的基本用法,为复杂 NLP 任务打下坚实基础。 其他说明:本文通过详细的代码示例和实际应用案例,使读者能够更好...