`

数学之美系列十五:繁与简 自然语言处理的几位精英

 
阅读更多
我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样的人。


柯林斯:追求完美

柯林斯从师于自然语言处理大师马库斯 (Mitch Marcus)(我们以后还会多次提到马库斯),从宾夕法利亚大学获得博士学位,现任麻省理工学院 (MIT) 副教授(别看他是副教授,他的水平在当今自然语言处理领域是数一数二的),在作博士期间,柯林斯写了一个后来以他名字命名的自然语言文法分析器 (sentence parser),可以将书面语的每一句话准确地进行文法分析。文法分析是很多自然语言应用的基础。虽然柯林斯的师兄布莱尔 (Eric Brill) 和 Ratnaparkhi 以及师弟 Eisnar 都完成了相当不错的语言文法分析器,但是柯林斯却将它做到了极致,使它在相当长一段时间内成为世界上最好的文法分析器。柯林斯成功的关键在于将文法分析的每一个细节都研究得很仔细。柯林斯用的数学模型也很漂亮,整个工作可以用完美来形容。我曾因为研究的需要,找柯林斯要过他文法分析器的源程序,他很爽快地给了我。我试图将他的程序修改一下来满足我特定应用的要求,但后来发现,他的程序细节太多以至于很难进一步优化。柯林斯的博士论文堪称是自然语言处理领域的范文。它像一本优秀的小说,把所有事情的来龙去脉介绍的清清楚楚,对于任何有一点计算机和自然语言处理知识的人,都可以轻而易举地读懂他复杂的方法。

柯林斯毕业后,在 AT&T 实验室度过了三年快乐的时光。在那里柯林斯完成了许多世界一流的研究工作诸如隐含马尔科夫模型的区别性训练方法,卷积核在自然语言处理中的应用等等。三年后,AT&T 停止了自然语言处理方面的研究,柯林斯幸运地在 MIT 找到了教职。在 MIT 的短短几年间,柯林斯多次在国际会议上获得最佳论文奖。相比其他同行,这种成就是独一无二的。柯林斯的特点就是把事情做到极致。如果说有人喜欢“繁琐哲学”,柯林斯就是一个。


布莱尔:简单才美

在研究方法上,站在柯林斯对立面的典型是他的师兄艾里克 · 布莱尔 (Eric Brill) 和雅让斯基,后者我们已经介绍过了,这里就不再重复。与柯林斯从工业界到学术界相反,布莱尔职业路径是从学术界走到工业界。与柯里斯的研究方法相反,布莱尔总是试图寻找简单得不能再简单的方法。布莱尔的成名作是基于变换规则的机器学习方法 (transformation rule based machine learning)。这个方法名称虽然很复杂,其实非常简单。我们以拼音转换字为例来说明它:

第一步,我们把每个拼音对应的汉字中最常见的找出来作为第一遍变换的结果,当然结果有不少错误。比如,“常识”可能被转换成“长识”;

第二步,可以说是“去伪存真”,我们用计算机根据上下文,列举所有的同音字替换的规则,比如,如果 chang 被标识成“长”,但是后面的汉字是“识”,则将“长”改成“常”;

第三步,应该就是“去粗取精”,将所有的规则用到事先标识好的语料中,挑出有用的,删掉无用的。然后重复二三步,直到找不到有用的为止。

布莱尔就靠这么简单的方法,在很多自然语言研究领域,得到了几乎最好的结果。由于他的方法再简单不过了,许许多多的人都跟着学。布莱尔可以算是我在美国的第一个业师,我们俩就用这么简单的方法作词性标注 (part of speech tagging),也就是把句子中的词标成名词动词,很多年内无人能超越。(最后超越我们的是后来加入 Google 的一名荷兰工程师,用的是同样的方法,但是做得细致很多)布莱尔离开学术界后去了微软研究院。在那里的第一年,他一人一年完成的工作比组里其他所有人许多年做的工作的总和还多。后来,布莱尔又加入了一个新的组,依然是高产科学家。据说,他的工作真正被微软重视要感谢 Google,因为有了 Google,微软才对他从人力物力上给于了巨大的支持,使得布莱尔成为微软搜索研究的领军人物之一。在研究方面,布莱尔有时不一定能马上找到应该怎么做,但是能马上否定掉一种不可能的方案。这和他追求简单的研究方法有关,他能在短时间内大致摸清每种方法的好坏。

由于布莱尔总是找简单有效的方法,而又从不隐瞒自己的方法,所以他总是很容易被包括作者我自己在内的很多人赶上和超过。好在布莱尔很喜欢别人追赶他,因为,当人们在一个研究方向超过他时,他已经调转船头驶向它方了。一次,艾里克对我说,有一件事我永远追不上他,那就是他比我先有了第二个孩子 :)

在接下来了系列里,我们还会介绍一个繁与简结合的例子。

来自:http://googlechinablog.com/2006/08/blog-post_115634657041368311.html
分享到:
评论

相关推荐

    自然语言处理数据集(初中和高中数学)

    自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集(初中和高中数学)自然语言处理数据集...

    数学之美系列完整版.docx

    数学之美系列完整版是由吴军,Google研究员编写的一系列关于数学在自然语言处理和信息检索中的应用。这系列文章涵盖了统计语言模型、中文分词、隐含马尔科夫模型、信息论、图论、网络爬虫、有限状态机、信息指纹、...

    主题:统计自然语言处理的数学基础

    nlp数学基础!ppt主题:统计自然语言处理的数学基础主题:统计自然语言处理的数学基础主题:统计自然语言处理的数学基础

    自然语言处理简明教程 部分章节

    1. 自然语言处理的基本概念:自然语言处理是人类语言与计算机之间的桥梁,涉及到语言的理解、生成、翻译等多个方面。在这个章节中,我们会了解到自然语言处理的定义、发展历程、重要性以及其在当前社会的应用,比如...

    NLP大作业-自然语言处理大作业:新闻情感极性分类+源代码+文档说明

    1、资源内容:NLP大作业-自然语言处理大作业:新闻情感极性分类+源代码+文档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能...

    李航北京大学自然语言处理讲座PPT

    在提供的文件信息中,我们有一个标题为“李航北京大学自然语言处理讲座PPT”,描述为“李航北京大学自然语言处理讲座PPT Natural Language Processing: An Overview”,标签为“李航 自然语言处理 NLP 机器学习 深度...

    谷歌黑板报-数学之美 数学在信息检索和自然语言处理中的主导作用和奇妙应用 共45页.pdf

    《谷歌黑板报》系列文章深入探讨了数学在信息检索和自然语言处理中的核心作用以及其奇妙的应用。本文将从统计语言模型、中文分词、隐含马尔可夫模型、信息度量、布尔代数、图论、信息论、贾里尼克公式、相关性计算、...

    自然语言处理课件 关毅 哈工大

    自然语言处理(NLP)是计算机科学领域的一个重要分支,主要研究如何使计算机理解、生成和处理人类自然语言。这门课程由哈工大的关毅教授讲授,旨在深入探讨NLP的核心概念和技术。课程涵盖了从基础知识到高级分析的...

    哈工大 智能技术与自然语言处理课程 NLP系列课程 全套课程PPT课件 共12个章节 含脑图总结与研究报告.rar

    第01章 自然语言处理概论 共64页.pptx 第02章 基础知识-数学基础与语言学基础 共75页.ppt 第03章 汉语的分词与频度统计 共88页.pptx 第04章 汉语语料库的多级加工 共82页.pptx 第05章 n-gram语言模型 共78页.ppt 第...

    NLP期末大作业-深度学习与自然语言处理+源代码+文档说明+实验报告

    1、资源内容:NLP期末大作业-深度学习与自然语言处理+源代码+文档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能ok的情况下...

    基于自然语言处理的数学基础

    数据挖掘及数据的具体分析技术数学基础知识

    数学之美系列完整版.doc

    【数学之美系列】是由Google研究员吴军撰写的一系列文章,主要探讨了数学在信息处理、自然语言处理(NLP)和搜索引擎技术中的应用。该系列文章涵盖了多个关键知识点,包括统计语言模型、中文分词、隐含马尔可夫模型...

    自然语言处理数据集——高中数学学科

    提供高中数学学科的知识数据集,包含2232个样本和2399个实体,提供了基于该数据集的实体关系数据库(一共12种关系,11250个实体关系对)。该数据集可用于基于高中数学学科的知识图谱的构建,包含命名实体识别、实体...

    数学之美番外篇.doc

    "数学之美番外篇" 贝叶斯方法是概率论中的一种重要方法,能够解决逆概问题,计算后验概率,并进行模型比较和选择。贝叶斯方法的核心思想是通过观察数据更新对模型参数的概率分布,以便在不确定性下进行推理和决策。...

    《解码三大数学常数:e的密码》《探秘数学常数:不可思议的自然对数》

    这些电子书的存在,使得人们可以随时随地沉浸在数学的奇妙世界中,探索那些对科学进步起着推动作用的基本常数,感受数学之美,理解自然规律背后的数学逻辑。 总之,这两本书籍旨在深化读者对e和自然对数的理解,让...

    数学相关的自然语言数据集.zip

    《自然语言处理与数学的交融:探索数据集的深度学习应用》 自然语言处理(NLP)是计算机科学领域的一个重要分支,它涉及到人类语言与机器之间的交互。近年来,随着大数据和人工智能的发展,NLP技术在信息检索、聊天...

    统计自然语言处理 中文

    统计自然语言处理,中文版,400余页。详细讲解了数学基础,语言基础,以及各种词法,句法等等。非常详细。pdf格式,解压密码为123321

    数学写真集无需语言的证明第1季 [(美)尼尔森 编] 2014年版

    数学写真集:无需语言的证明(第1季) 作者:(美)尼尔森 编 出版时间:2014年版 内容简介  本书由131幅“无需语言的证明”的图片组成,每幅图片的下面列出了该图片要“证明”的数学结论。当从一幅图片中悟出为何...

Global site tag (gtag.js) - Google Analytics