`
liuxinglanyue
  • 浏览: 561718 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

数学之美 系列二十 -自然语言处理的教父 马库斯

阅读更多

我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。

马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找到皮耶尔替代他为止。作为一个管理者,马库斯显示出在自然处理和计算机科学方面的卓识的远见。在指导博士生时,马库斯发现语料库在自然语言处理中的重要性。马库斯呕心沥血,花了十几年工夫建立了一系列标准的语料库,提供给全世界的学者使用。这套被称为 LDC 的语料库,是当今全世界自然语言处理的所有学者都使用的工具。我们在以前的系列中讲到,当今的自然语言处理几乎都是使用给予统计的方法。要做统计,就需要大量有代表性的数据。利用这些数据开发一个自然语言处理系统的过程,可以统称为训练。比如,我们要训练一个汉语分词系统,我们需要一些已经分好词的中文句子。当然这些句子需要有代表性。如果想知道一个分词系统的准确性,我们也需要一些人工分好词的句子进行测试。这些人工处理好的文字数据库,成为语料库(corpus)。如果每个研究室都人工建立几个语料库,不仅浪费时间精力,而且发表文章时,数据没有可比性。因此,马库斯想到了建立一系列标准的语料库为全世界的学者用。他利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,联络的多所大学和研究机构,建立的数百个标准的语料库。其中最著名的是 PennTree
Bank 的语料库。PennTree Bank 覆盖多种语言(包括中文)。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树等等。LDC 语料库如今已成为全世界自然语言处理科学家共用的数据库。如今,在自然语言处理方面发表论文,几乎都要提供基于 LDC 语料库的测试结果。

马库斯给予他的博士生研究自己感兴趣的课题的自由,这是他之所以桃李满天下的原因。马库斯对几乎所有的自然语言处理领域有独到的见解。和许多教授让博士生去做他拿到基金的项目,马库斯让博士生提出自己有兴趣的课题,或者用他已有的经费支持学生,或者为他们的项目区申请经费。马库斯高屋建瓴,能够很快的判断一个研究方向是否正确,省去了博士生很多 try-and-error 的时间。因此他的学生有些很快地拿到的博士学位。

作为系主任,马库斯在专业设置方面显示出卓识的远见。我有幸和他在同一个校务顾问委员会任职,一起讨论计算机系的研究方向。马库斯在几年前互联网很热门、很多大学开始互联网研究时,看到 bioinformatics (生物信息学)的重要性,在宾夕法利亚大学设置这个专业,并且在其他大学还没有意识到时,开始招聘这方面的教授。马库斯还建议一些相关领域的教授,包括后来的系主任皮耶尔把一部分精力转到生物信息学方面。马库斯同时向他担任顾问的其他一些大学提出同样的建议。等到网络泡沫破裂以后,很多大学的计算机系开始向生物信息学转向,但是发现已经很难找到这些方面好的教授了。我觉得,当今中国的大学,最需要的就是马库斯这样卓有远见的管理者。

过几天我又要和马库斯一起开顾问委员会的会议了,不知道这次他对计算机科学的发展有什么见解。

分享到:
评论

相关推荐

    谷歌黑板报

    #### 知识点二十:自然语言处理的教父马库斯 马库斯在自然语言处理领域享有盛誉,他对语言模型、机器翻译和语义分析等方向的贡献,奠定了现代NLP研究的基础。了解马库斯的工作,有助于把握NLP领域的历史脉络和发展...

    开心网教父dos版123

    使用前请先安装 Framework2.0 【软件作者】 ... 【发布时间】 2009-2-1 【功能更新】 ...* 教父-自动火拼(选择最弱的选手) * 教父-自动医疗 * 自动登陆多个账号 * 支持代理设置 * 使用前请先安装 Framework2.0

    音视频-直播技术-释意理论在电影教父字幕翻译中的应用.pdf

    3. 应用释意理论分析《教父》的字幕翻译,具体探讨了如何通过理解原文意义并脱离源语言的形式进行有效的翻译。 4. 探讨了在遵循“脱离源语言外壳”原则时,译者所采取的各种翻译策略。 最后一章结论部分,作者总结...

    Mac OS X平台下的桌面软件开发感悟 - 其实我不是代码教父,我只是猪头三 - 博客频道 - CSDN.NET1

    在Mac OS X平台上进行桌面软件开发,涉及到一系列的技术和工具,本文主要分享了一些开发者的心得体会。首先,我们要认识到Mac OS X系统与Windows系统在底层架构上的差异,这对于跨平台开发至关重要。 Mac OS X是...

    【0011】43页PPT阿里智慧工地产品整体方案介绍-精简版·方案教父.pptx

    - **自然语言处理(NLP)**:涵盖语义理解计算、翻译基础计算等关键技术。 - **决策智能**:提供强大的决策支持能力,如事件识别、区域计数等。 #### 五、智慧工地应用场景及解决方案 1. **建设期**: - BIM可视化...

    关于教父的英语PPT课件.ppt

    关于教父的英语PPT,关于教父的英语

    《教父》——男人的智慧[借鉴].pdf

    《教父》智慧集锦 《教父》是一部经典的电影和小说,它塑造了形象鲜明的维托·柯利昂和麦克·柯利昂两代教父。通过这部作品,我们可以体味到男人温情的一面,感受到为了家族的崛起、壮大和安危而作出的无怨无悔的...

    AI教父辛顿:GPT-4就像英文流利的外星人

    英国卫报4日报道,现年75岁的人工智能(AI)教父辛顿(Geoffrey Hinton)受访时表示,过去一年来AI模型的快速发展让他开始认真看待数字智能有朝一日可能取代人类智能的威胁,这些大模型可能比大脑好多了。...

    E网教父-淘客产品下载

    标题“E网教父-淘客产品下载”和描述“E网教父-淘客产品下载!”暗示我们这里涉及的是一个与网络教育和淘宝客(Taobao Affiliate)相关的软件工具,可能是一个帮助用户批量下载淘客产品的应用程序。下面将详细解释...

    isee2018-Codefathers:团队教父的资料库

    isee2018-Codefathers 关于此存储库: 团队Codefathers的存储库。 在这里,您可以找到有关为软件工程简介分配给我们的项目的博客文章和其他资产。 该项目: 我们的项目是开发一个Android应用程序,以帮助人们确保...

    教父中英文台词.doc

    教父中英文台词.doc

    church_fathers-dev:精选的教父的机器修正 XML 版本

    Church_fathers-dev 精选的教父的机器修正 XML 版本。

    精品资料(2021-2022年收藏)亚洲教父:香港、东南亚的金钱和权力超级富豪发迹史a.doc

    精品资料(2021-2022年收藏)

    高职数学教学职业素养教育研究.doc

    鉴于现代高职学生多为独生子女,容易出现好高骛远、缺乏耐心和毅力的现象,教师可以通过引入数学家的历史故事,如英国数学教父迈克尔·阿蒂亚对“黎曼猜想”的执着追求,激发学生对坚韧不拔精神的认识和尊重。...

    C程序设计语言(K&R)清晰中文版

    这本书被广泛认为是学习C语言的经典教材之一,被称为C语言的“教父级”教程。它由Brian W. Kernighan和Dennis M. Ritchie两位作者共同编写,因此通常被称为K&R(Kernighan & Ritchie)风格的C语言书籍。这本书不仅...

    数据库教父E.F.CODD.doc

    E.F.CODD,被誉为“数据库教父”,对数据库领域做出了划时代的贡献。1970年,他在ACM的Communications of ACM杂志上发表了一篇名为《大型共享数据库数据的关系模型》的文章,这篇文章被视为数据库历史上的一个里程碑...

    模拟ic设计教父--拉扎维--cmos集成电路设计(中文版本,新的版本)

    拉扎维的书,模拟集成电路设计的圣经!!!很清晰的,也是通俗易懂

    布鲁耐罗的教父.docx

    在《布鲁耐罗的教父》这篇文档中,提到了Montalcino地区作为托斯卡纳最著名的DOCG产区之一,其地理位置和环境对于葡萄酒生产具有重要影响。该地区的气候特点是温差较大,尤其是在春季,山下的温度较高,而山顶则较为...

    STM32教父新愿景:产品成嵌入式工程师的首选.zip

    STM32是一款基于ARM Cortex-M内核的微控制器系列,由意法半导体(STMicroelectronics)开发,广泛应用于各种嵌入式系统设计中。标题"STM32教父新愿景:产品成嵌入式工程师的首选"暗示了STM32在嵌入式领域的主导地位...

    开心教父C#。net版

    【标题】:“开心教父C# .NET版”揭示了这个资源与C#编程语言以及.NET框架的应用有关,特别是针对初学者或者对编程有浓厚兴趣的“开心”学习者。这个标题暗示了教程或者课程可能以轻松愉快的方式介绍C# .NET编程,...

Global site tag (gtag.js) - Google Analytics