`

对分词的一些看法,最近看到不少,不说不快

阅读更多
关于分词得研究由来已久,最近看到博客园里类似文章不断,于是想说说自己的看法。

    对于分词算法,首先我觉得是一个数学和文学的问题而非编程技术的问题,肯到很多同学不厌其烦的孜孜不倦的追求最完美的分词程序,其实我看大可不必,当然对于编程技术的完美追求是好的,不过应该是力气用错了地方。
    最先看到的是《天书般的ICTCLAS分词系统代码(一) 》,在此不对zhenyulu兄的Post做任何评价,不过在看到很多人发布自己的分词代码,感觉很多同学在用一个庞大的工程来锻炼自己写链表的能力,实在觉得浪费资源。分词是一个算法问题,这个也许是只有汉语才存在的问题(英文其实不需要分词,因为每个单词用空格隔开了)对于算法问题是首先需要有了优秀的算法,才能出现优秀程序,而对于中文分词,很多同学都用程序的眼光去看待其实是不对的,打个比方,冒泡法排序,算法已经确定的情况下你的程序再优化也不能超过其理论上限,这个是数学理论所决定好了的,数学是所有科学的基础,如果向基础理论挑战无疑是唐吉坷德挑战风车一般。程序无非是用计算机语言去诠释数学的理论,而面向搜索的中文分词设计 一文所发布的程序,个人认为精神可嘉,但行为不可取,因为从根本上的算法就不够先进,所以程序出来也不会很出色,如果大家想研究算法的话,还是先搞好算法本身,再去用程序证明会比较好一点。

   PS一下,说说自己对分词算法的一点看法,分次算法首先要对中文的文法有深入的研究才能提出最优化的算法,呵呵,所以想搞中文分词的话最好学好语文先:}。根据自己学习母语二十多年来的一点浅薄经验来看,中文整句的分词识别找到谓语是最重要的,因为谓语是构成文法的谓词结构主要组成部分,谓语一确定,主语宾语的词分出来就好识别的。

不是自己的主攻方向,不过说点自己的见解,如果有不同意见欢迎讨论
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics