`
henry2009
  • 浏览: 93474 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

[转]中文分词入门之最大匹配法

阅读更多

  中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中 文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的 是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c++实现,利用hash_map 存储词表。这里我介绍一下相关的知识和一个简单的程序示例,部分参考自詹老师的讲义。
  正向最大匹配法算法如下所示:
最大匹配法图
(注:以上最大匹配算法图来自于詹老师讲义)
  逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
   输入例句:S1=”计算语言学课程有意思” ;
   定义:最大词长MaxLen = 5;S2= ” “;分隔符 = “/”;
   假设存在词表:…,计算语言学,课程,意思,…;
   最大逆向匹配分词算法 过程如下:
 (1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”;
 (2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;
 (3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;
 (4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”
 (5)查词表,“意思”在词表中,将W加入到S2中,S2=” 意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;
 (6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;
 (7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;
 (8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;
 (9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;
 (10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
 (11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;
 (12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;
 (13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;
 (14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;
 (15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”计算语言学”;
 (16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;
 (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=”";
 (18)S1为空,输出S2作为分词结果,分词过程结束。

相应程序示例:
  准备文件:建立一个词表文件wordlexicon,格式如下
    计算语言学
    课程
    意思
  输入文件:test,格式如下
       计算语言学课程有意思
  编译后执行如下:SegWord.exe test
  输出分词结果文件:SegmentResult.txt
源代码如下:
// Dictionary.h
#include <iostream>
#include <string>
#include <fstream>
#include <sstream>
#include <hash_map>

using namespace std;
using namespace stdext;

class CDictionary
{
public:
CDictionary(); //将词典文件读入并构造为一个哈希词典
~CDictionary();
int FindWord(string w); //在哈希词典中查找词

private:
string strtmp; //读取词典的每一行
string word; //保存每个词
hash_map<string, int> wordhash; // 用于读取词典后的哈希
hash_map<string, int >::iterator worditer; //
typedef pair<string, int> sipair;
};

//将词典文件读入并构造为一个哈希词典
CDictionary::CDictionary()
{
ifstream infile(“wordlexicon”); // 打开词典
if (!infile.is_open()) // 打开词典失败则退出程序
{
cerr << "Unable to open input file: " << "wordlexicon"
<< " -- bailing out!" << endl;
exit(-1);
}
while (getline(infile, strtmp, 'n')) // 读入词典的每一行并将其添加入哈希中
{
istringstream istr(strtmp);
istr >> word; //读入每行第一个词
wordhash.insert(sipair(word, 1)); //插入到哈希中
}
}

CDictionary::~CDictionary()
{
}

//在哈希词典中查找词,若找到,则返回,否则返回
int CDictionary::FindWord(string w)
{
if (wordhash.find(w) != wordhash.end())
{
return 1;
}
else
{
return 0;
}
}

// 主程序main.cpp
#include “Dictionary.h”

# define MaxWordLength 10 // 最大词长为个字节(即个汉字)
# define Separator “/ ” // 词界标记

CDictionary WordDic; //初始化一个词典

//对字符串用最大匹配法(正向或逆向)处理
string SegmentSentence(string s1)
{
string s2 = “”; //用s2存放分词结果

while(!s1.empty())
{
int len =(int) s1.length(); // 取输入串长度
if (len > MaxWordLength) // 如果输入串长度大于最大词长
{
len = MaxWordLength; // 只在最大词长范围内进行处理
}

//string w = s1.substr(0, len); // (正向用)将输入串左边等于最大词长长度串取出作为候选词
string w = s1.substr(s1.length() – len, len); //逆向用
int n = WordDic.FindWord(w); // 在词典中查找相应的词
while(len > 2 && n == 0) // 如果不是词
{
len -= 2; // 从候选词右边减掉一个汉字,将剩下的部分作为候选词
//w = w.substr(0, len); //正向用
w = s1.substr(s1.length() – len, len); //逆向用
n = WordDic.FindWord(w);
}
//s2 += w + Separator; // (正向用)将匹配得到的词连同词界标记加到输出串末尾
w = w + Separator; // (逆向用)
s2 = w + s2 ; // (逆向用)
//s1 = s1.substr(w.length(), s1.length()); //(正向用)从s1-w处开始
s1 = s1.substr(0, s1.length() – len); // (逆向用)
}
return s2;
}

//对句子进行最大匹配法处理,包含对特殊字符的处理
string SegmentSentenceMM (string s1)
{
string s2 = “”; //用s2存放分词结果
int i;
int dd;
while(!s1.empty() )
{
unsigned char ch = (unsigned char)s1[0];
if (ch < 128) // 处理西文字符
{
i = 1;
dd = (int)s1.length();
while (i < dd && ((unsigned char)s1[i] < 128) && (s1[i] != 10) && (s1[i] != 13)) // s1[i]不能是换行符或回车符
{
i++;
}
if ((ch != 32) && (ch != 10) && (ch != 13)) // 如果不是西文空格或换行或回车符
{
s2 += s1.substr(0,i) + Separator;
}
else
{
if (ch == 10 || ch == 13) // 如果是换行或回车符,将它拷贝给s2输出
{
s2 += s1.substr(0, i);
}
}
s1 = s1.substr(i,dd);
continue;
}
else
{
if (ch < 176) // 中文标点等非汉字字符
{
i = 0;
dd = (int)s1.length();
while(i < dd && ((unsigned char)s1[i] < 176) && ((unsigned char)s1[i] >= 161)
&& (!((unsigned char)s1[i] == 161 && ((unsigned char)s1[i+1] >= 162 && (unsigned char)s1[i+1] <= 168)))
&& (!((unsigned char)s1[i] == 161 && ((unsigned char)s1[i+1] >= 171 && (unsigned char)s1[i+1] <= 191)))
&& (!((unsigned char)s1[i] == 163 && ((unsigned char)s1[i+1] == 172 || (unsigned char)s1[i+1] == 161)
|| (unsigned char)s1[i+1] == 168 || (unsigned char)s1[i+1] == 169 || (unsigned char)s1[i+1] == 186
|| (unsigned char)s1[i+1] == 187 || (unsigned char)s1[i+1] == 191)))
{
i = i + 2; // 假定没有半个汉字
}
if (i == 0)
{
i = i + 2;
}
if (!(ch == 161 && (unsigned char)s1[1] == 161)) // 不处理中文空格
{
s2+=s1.substr(0, i) + Separator; // 其他的非汉字双字节字符可能连续输出
}
s1 = s1.substr(i, dd);
continue;
}
}

// 以下处理汉字串
i = 2;
dd = (int)s1.length();
while(i < dd && (unsigned char)s1[i] >= 176)
{
i += 2;
}
s2 += SegmentSentence(s1.substr(0, i));
s1 = s1.substr(i,dd);
}

return s2;
}

int main(int argc, char *argv[])
{
string strtmp; //用于保存从语料库中读入的每一行
string line; //用于输出每一行的结果

ifstream infile(argv[1]); // 打开输入文件
if (!infile.is_open()) // 打开输入文件失败则退出程序
{
cerr << "Unable to open input file: " << argv[1]
<< " -- bailing out!" << endl;
exit(-1);
}

ofstream outfile1("SegmentResult.txt"); //确定输出文件
if (!outfile1.is_open())
{
cerr << "Unable to open file:SegmentResult.txt"
<< "--bailing out!" << endl;
exit(-1);
}

while (getline(infile, strtmp, 'n')) //读入语料库中的每一行并用最大匹配法处理
{
line = strtmp;
line = SegmentSentenceMM(line); // 调用分词函数进行分词处理
outfile1 << line << endl; // 将分词结果写入目标文件
}

return 0;
}

补充说明:如果使用正向匹配法,请将源代码中的相关注释 “//"互换。

注:原创文章,转载请注明出处“我爱自然语言处理 ”:www.52nlp.cn

本文链接地址:
http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation/

分享到:
评论

相关推荐

    中文分词入门与字标注法

    在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费...

    Lucene4.7+IK Analyzer中文分词入门教程

    【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...

    自然语言处理入门小项目:根据语料生成宋词;双向最大匹配+Bi-gram实现中文分词;简单的基于Flask的WebUI展示.zip

    这个入门级的小项目涵盖了几个关键的NLP技术,包括语料库的利用、词生成和中文分词,以及通过Flask框架创建Web用户界面。 首先,我们来探讨语料库在生成宋词中的应用。语料库是包含大量文本的数据集,对于自然语言...

    读书笔记2之中文分词流程HanLP

    中文分词是自然语言处理(NLP)中的基础任务,主要目标是将连续的汉字序列分割成具有独立语义的词语。在这个过程中,涉及到多个步骤和技术。以下是对中文分词流程以及汉语文本处理库HanLP的详细解析。 首先,**句子...

    中文分词概述

    本文将对中文分词的基本概念、常见方法及其在实际应用中的挑战进行介绍,旨在为初学者提供一个入门级的指南。 #### 二、中文分词的基本概念 1. **定义**:中文分词是指将连续的无空格分隔的汉字序列切分成一个个...

    friso中文分词1.6版

    **mmseg算法**是friso的核心技术,该算法基于最大匹配原则,能够有效地处理汉语的歧义问题,提升分词准确率。 **C语言**是friso的编程基础,它是一种静态类型、编译型、通用的、大小写敏感的、不仅支持过程化编程,...

    51cto中文分词c语言版略修改

    正向最大匹配是自然语言处理领域中常用的一种分词策略,主要应用于中文文本处理,旨在将连续的汉字序列切分成有意义的词语。 中文分词是中文信息处理的基础步骤,因为中文没有明显的空格作为词与词之间的分隔符。...

    AI人工智能课程 NLP技术-自然语言处理入门资料 中文分词(1) 共27页.pdf

    通常,我们会使用词典匹配的方法来进行分词,其中最常见的是基于最大长度查找的前向查找和后向查找。为了提高效率,数据结构的选择至关重要,Trie树作为一种高效的数据结构,常用于加速分词过程。Trie树允许快速查找...

    MMAnalyzer 相关jar包,java中文分词

    在IT行业中,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词语单元,这对于信息检索、文本分析、机器翻译等多个领域至关重要。"MMAnalyzer"是一个专门针对Java开发的中文...

    Lucene分词查询

    **Lucene分词查询**是搜索引擎开发中的关键一环,它是Apache Lucene库的核心功能之一。Lucene是一个高性能、全文本搜索库,为Java开发者提供了强大的文本搜索能力。在这个入门实例中,我们将深入理解如何利用Lucene...

    基于Java实现的汉字与拼音互转的工具库源码+项目说明(带简单的分词功能).zip

    这个项目的缘起是,前几天女朋友问我有没有java的拼音转汉字的库,一查似乎没有,于是找到python-pinyin,剽窃之。 :joy: 哈哈。 将汉字转拼音,或者是将拼音转汉字的一个工具库,内存占用很小。功能有: 1. 支持...

    《自然语言处理入门》第02章 词典分词.pptx

    《自然语言处理入门》第02章主要讲解了词典分词的相关知识,涉及词的定义、词典的构建和加载、以及各种切分算法。以下是详细的解释: 2.1 词的定义 在自然语言处理中,词是语言学上的基本单位,通常被视为能够独立...

    IK Analyzer 2012FF_hf1.zip_IK-Analyzer-2012FF_ik分词器_prizegv5_分词

    - 智能分词:采用正向最大匹配法(Forward Maximum Matching, FMM)和逆向最大匹配法(Backward Maximum Matching, BMM)相结合的方式,既能处理长词,也能处理短词。 - 用户自定义扩展:用户可以通过配置文件(如...

    中文分词与词云绘制 改变词云的形状

    中文分词的主要目的是将连续的汉字序列切分成有意义的词汇单元,这有助于后续的语义分析、情感分析等任务。常用的中文分词工具有jieba分词库,它支持多种分词模式,如精确模式、全模式和搜索引擎模式,可以根据具体...

    自然语言处理实验报告.doc/中文分词/宋词生成/n-gram模型/全部java源代码

    常见的中文分词方法包括基于词典的匹配方法(如正向最大匹配FMM、逆向最大匹配BMM)、统计模型(如隐马尔科夫模型HMM、条件随机场CRF)等。在实验中,可能采用了其中的一种或多种方法,结合自定义词典和训练数据进行...

    【jieba分词】必练代码

    首先,jieba分词库的核心功能是对中文文本进行分词,即将连续的汉字序列切分成具有语义的词汇单元。例如,将句子“我爱你,中国”分词为“我”、“爱”、“你”、“,”、“中国”。这一过程对于后续的文本分析、...

    Python入门到高级第十四章

    常见的中文分词算法包括基于规则的分词、最大匹配法和条件随机场(Conditional Random Fields, CRF)等。 ### 词性标注 词性标注是指给定一个句子或文本中的每个单词赋予其对应的词性的过程。词性标注可以用于实体...

    EasySeg1.1

    在现代信息技术领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成具有独立意义的词语,对于搜索引擎、文本挖掘、机器翻译等领域具有重要意义。本文将围绕"EasySeg1.1"这一开源项目...

    lucene3.6的入门案例

    在本案例中,我们使用的是 IKAnalyzer,这是一个针对中文的开源分词器,能较好地处理中文分词问题。 4. **索引writer(IndexWriter)**:负责创建或更新索引。我们可以向 IndexWriter 添加文档,然后调用 commit() ...

    基于TensorFlow框架+可配置词典的中文分词网络模型Python实现源码+项目运行说明+数据.zip

    基于TensorFlow框架+可配置词典的中文分词网络模型Python实现源码+项目运行说明+数据.zip 基于可配置词典的lstm切词。 将最大前向匹配的结果作为模型输入的一部分,达到动态干预模型结果的效果,实时加入新词 # 运行...

Global site tag (gtag.js) - Google Analytics