lobin

浏览: 433436 次
性别:
来自: 上海

最近访客更多访客>>

jAmEs_

wangyy

sindyqiu

yezhouzdzy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

分词

博客分类：

分词

分词其实也是个比较复杂的问题。即便是看着简单的英文文字，也可以延伸到一个复杂的课题。更何况设计到各国语言的文字。比如中文，中文分词也是个复杂的问题。后面将讨论中文分词。

分词简单的就是将一个句子分割成多个词。分词的目的就是通过这个过程提取句子中的关键字，得到其中的关键信息，理解句子的意思。分词在搜索中是一个很重要的过程。

分词最简单的就是按照句子中的分割符分割出句子中的各个词。

比如这样一个英文句子：

“Henry is utterly insupportable.”

其中文意思是：

“亨利是一个完全无法相处的人.”

对于英文来说，最简单的就是根据句子中的分割符直接分割，英文句子中的各个词都是通过空格分割，还有其他的分割符，如逗号，句号，感叹号等，这些跟中文差不多。分词的结果为：

[“Henry“ ”is“ ”utterly“ ”insupportable”]

通过标准库函数strtok和strpbrk进行分割后就可以得到上述分词结果。

写道

C: 第3章字符串
https://www.iteye.com/blog/lobin-2518051

当然对上面的中文句子进行分词的话，显然不能直接像英文句子那样进行分割，因为中文句子中每个中文文字都是紧挨着的，无法直接提取到句子中的每个字，更不能直接提取到句子中的各个词出来。

后续将讨论中文分词，这里先讨论英文句子的分词。

除了上面的分词结果。英文句子其实也是语境的。有时候也需要根据语境进行分词。

上面的分词只是简单的将一个个的英文单词分割出来，包括中文分词中的那个简单例子，也只是简单的将句子中的一个个汉字给分割出来。参考中文分词的文章：

写道

中文分词
https://www.iteye.com/blog/lobin-2311778

这种分词太机械，有时候我们需要将句子中的较为独立，更为关键的词、短语作为单独的分割项进行分割。比如上面的句子，我们可能更希望得到如下分词结果：

[“Henry“ ”is“ ”utterly insupportable”]

[“Henry“ ”utterly insupportable”]

[“Henry“ ”utterly“ ”insupportable”]

词典

匹配

匹配可以正向匹配，也可以逆向匹配。正向匹配就是从左到右去匹配，匹配到一个词后，再往后继续匹配，如此依次下去直到结束为止。逆向匹配正好相反，从右到左匹配，匹配到一个词后，再往前继续匹配，如此依次下去直到结束为止。

在匹配的过程中，还可以选择最大匹配和最小匹配。最大匹配尽可能匹配一个最长的词，最小匹配尽可能匹配一个最短的词。

正向匹配、逆向匹配、最大匹配以及最小匹配可以组合使用。正向匹配和逆向匹配组合可以实现双向匹配。正向匹配和最大匹配最小匹配组合就是正向最大匹配和正向最小匹配。逆向匹配和最大匹配最小匹配组合就是逆向最大匹配和逆向最小匹配。

正向匹配

正向最大匹配的例子

int libsegment_maxLeft(dict_t *dict, char *text, void **result, int *n)
{
  str_t *t = NULL;
  int num = 0;

  while (text && *text)
  {
    int i, j;
    int len = strlen(text);
    for (i = len; i > 0; i--)
    {
      for (j = 0; j < dict->n; j++)
      {
        if (strlen(dict->ptr[j]) == i && ! strncmp(text, dict->ptr[j], i))
        {
          break;
        }
      }
      if (j < dict->n)
      {
        
        t = realloc(t, sizeof(str_t) * ++num);
        t[num - 1].ptr = text;
        t[num - 1].len = i;

        text += i;
        break;
      }
    }

    // the word followed in min cann't be recorgnoized, there 
    // have no such word in dictionary. 
    // in this case, take the follow single as the word.
    if (i <= 0)
    {
      if (((unsigned char) text[0]) > 127)
      {
        t = realloc(t, sizeof(str_t) * ++num);
        t[num - 1].ptr = text;
        t[num - 1].len = 3;

        text += 3;
      }
    }
  }
  *result = t;
  *n = num;
}

正向最小匹配的例子

int libsegment_minLeft(dict_t *dict, char *text, void **result, int *n)
{
  str_t *t = NULL;
  int num = 0;

  while (text && *text)
  {
    int i, j;
    int len = strlen(text);
    for (i = 0; i < len; i++)
    {
      for (j = 0; j < dict->n; j++)
      {
        if (strlen(dict->ptr[j]) == i && ! strncmp(text, dict->ptr[j], i))
        {
          break;
        }
      }
      if (j < dict->n)
      {
        
        t = realloc(t, sizeof(str_t) * ++num);
        t[num - 1].ptr = text;
        t[num - 1].len = i;

        text += i;
        break;
      }
    }

    // the word followed in min cann't be recorgnoized, there 
    // have no such word in dictionary. 
    // in this case, take the follow single as the word.
    if (i >= len)
    {
      if (((unsigned char) text[0]) > 127)
      {
        t = realloc(t, sizeof(str_t) * ++num);
        t[num - 1].ptr = text;
        t[num - 1].len = 3;

        text += 3;
      }
    }
  }
  *result = t;
  *n = num;
}

逆向匹配

双向匹配

最大匹配

最小匹配

分词词库

分词库构造

中文分词

写道

中文分词
https://www.iteye.com/blog/lobin-2311778

0
顶

1
踩

分享到：

分布式缓存系统 memcached 协议 | C: 第8章预处理

2016-09-27 18:03
浏览 680
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

分词

分词

词典

匹配

正向匹配

逆向匹配

双向匹配

最大匹配

最小匹配

分词词库

分词库构造

中文分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

分词

分词

词典

匹配

正向匹配

逆向匹配

双向匹配

最大匹配

最小匹配

分词词库

分词库构造

中文分词

评论

发表评论

相关推荐

C: 类型转换

C: 类型转换

C: lvalue & rvalue

C: lvalue & rvalue

C: 标准库

C: 标准库

C: 语句

C: 语句

C: 表达式求值

C: 表达式求值

C: 运算符

XCode

Rust

MacOS 编程：框架

MacOS 编程

Objective-C/C++

Objective-C/C++

MacOS 编程：框架

MacOS 编程

Objective-C Runtime

最近访客更多访客>>