`
ipython
  • 浏览: 293833 次
  • 性别: Icon_minigender_1
  • 来自: 佛山
社区版块
存档分类
最新评论

python 中文分词,安装 pymmseg

阅读更多

在python这pymmseg-cpp 还是十分方便的! 

 

环境 ubuntu10.04 , python2.65

 

步骤:

1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/

2  tar -zxf pymmseg-cpp*.tar.gz           //解压后得到pymmseg 目录

    cd pymmseg\mmseg-cpp

    python build.py     #生成 mmseg.so文件

 

3 将 pymmseg 目录复制到 /usr/local/lib/python2.6/dist-packages 中

 

 

4 测试有没有成功:

  test.py

 

from pymmseg import mmseg 
mmseg.dict_load_defaults()  
text = '今天的天气真好啊,我们一起出去玩一下吧'
algor = mmseg.Algorithm(text)  
for tok in algor:  
    print '%s [%d..%d]' % (tok.text, tok.start, tok.end)  
 

 

 

分享到:
评论

相关推荐

    Python中文分词_中文分词软件

    Python中文分词_中文分词软件,使用jieba字典

    python中文分词

    Python中文分词是Python在处理中文文本时的关键技术,它涉及到自然语言处理(NLP)领域,主要用于将连续的汉字序列切分成具有语义的单个词汇,这在数据分析、机器学习、信息检索、文本挖掘等领域有着广泛的应用。...

    python中文分词:基于条件随机场模型的中文分词实现及改进全项目.zip

    标题中的“python中文分词:基于条件随机场模型的中文分词实现及改进全项目”表明,这是一个关于Python编程语言的项目,专注于中文文本的分词处理。分词是自然语言处理(NLP)中的基础步骤,它将连续的文本序列切...

    Python中文分词实现方法(安装pymmseg)

    本文实例讲述了Python中文分词实现方法。分享给大家供大家参考,具体如下: 在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 ...

    pymmseg-cpp python中文分词

    pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Python interface.

    python中文分词,使用结巴分词对python进行分词(实例讲解)

    ### Python中文分词技术详解与结巴分词应用 #### 一、中文分词的重要性及应用场景 中文分词是自然语言处理(NLP)中的一个关键步骤,它是指将连续的中文字符序列切分成一个个单独的、具有语义的词汇的过程。在文本...

    pymmseg -python分词模块

    python分词模块,基于mmseg算法编写,核心代码c++,提供python接口

    Python-jieba结巴中文分词做最好的Python中文分词组件

    **Python-jieba结巴中文分词:打造顶级的Python中文处理工具** jieba,一个在Python开发者中广受欢迎的库,被誉为“结巴”中文分词,是处理中文文本的强大武器。它专为了解决中文分词问题而设计,为Python提供了...

    用Python做中文分词和绘制词云图

    "用Python做中文分词和绘制词云图"这个主题涉及到两个主要的知识点:一是使用jieba库进行中文分词,二是利用Python进行词云图的绘制。 首先,我们来详细探讨jieba分词。jieba是一个专门用于中文分词的Python库,它...

    python分词

    python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词python分词...

    Python-pkusegpython一个北大高准确度的中文分词工具包

    中文分词是将连续的汉字序列切分成具有独立语义的词语,是中文信息处理的基础。对于机器学习和自然语言理解来说,准确的分词结果能够提高模型的性能。PKUSEG工具包正是基于这一需求,通过深度学习和统计模型,显著...

    Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要...

    HMM实现中文分词python实现作业

    在自然语言处理(NLP)领域,中文分词是一项基础且关键的任务,它涉及到将连续的汉字序列分割成有意义的词汇单元。在这个“HMM实现中文分词python实现作业”中,我们关注的是如何利用隐马尔可夫模型(HMM)来解决这...

    python jieba 分词的一系列代码

    在Python编程语言中,jieba库是一个非常流行的中文分词工具,它提供了高效且易于使用的接口,使得开发者能够轻松地处理中文文本。本项目聚焦于使用jieba进行分词,并结合其他库如snownlp(用于情感分析)和...

    分词_python分词_

    利用python对三体进行分词 并进行词频统计

    PythonOCC的安装

    ### PythonOCC的安装与使用详解 #### 一、PythonOCC简介 PythonOCC是基于OpenCASCADE技术的Python封装库,由tpaviot开发并维护。它为Python用户提供了一个强大的计算机辅助设计(CAD)工具集,使得在Python环境下...

    python 介绍和安装

    python 介绍和安装,详细介绍了python是什么,以及怎么安装。

    delphi+Python结巴分词例子源代码

    分词是将连续的汉字序列切分成具有语义的词语单元,是中文信息处理的基础步骤。 压缩包中的文件名列表: 1. `Project1.conf`:可能是一个配置文件,用于存储项目设置或与 Python 脚本相关的配置信息。 2. `Unit1....

    Python3.8 tgz安装

    请注意,直接安装系统包管理器(如apt、yum或dnf)提供的Python版本可能更简单,但对于想要自定义安装或学习编译过程的开发者来说,手动安装是一个很好的实践。此外,安装完成后,为了系统稳定性,建议创建软链接,...

Global site tag (gtag.js) - Google Analytics