- 浏览: 565718 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (478)
- lucene (45)
- oracle (19)
- nutch (2)
- blog (2)
- 垂直搜索 (19)
- java综合 (89)
- spring (15)
- Hibernate (9)
- Struts (9)
- Hadoop (16)
- Mysql (12)
- nosql (10)
- Linux (3)
- MyEclipse (4)
- Ant (1)
- 设计模式 (19)
- JBPM (1)
- JSP (1)
- HtmlParser (5)
- SVN (2)
- 插件 (2)
- 收藏 (7)
- Others (1)
- Heritrix (18)
- Solr (4)
- 主题爬虫 (31)
- 内存数据库 (24)
- 分布式与海量数据 (32)
- httpclient (14)
- Tomcat (1)
- 面试宝典 (6)
- Python (14)
- 数据挖掘 (1)
- 算法 (6)
- 其他 (4)
- JVM (12)
- Redis (18)
最新评论
-
hanjiyun:
本人水平还有待提高,进步空间很大,看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ -
liuxinglanyue:
四年后的自己:这种方法 不靠谱。 使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言) -
jaysoncn:
附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题 -
231fuchenxi:
你好,有redis,memlink,mysql的测试代码吗?可 ...
MemLink 性能测试 -
guyue1015:
[color=orange][/color][size=lar ...
JAVA同步机制
读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。
弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学(私立学校)读书。为了教他德语,还专门请的一位德国的家庭女教师,但是第二次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出去,流浪到布拉格。他的父亲死在了集中营,弗莱德自己成天在街上玩耍,完全荒废了学业。二战后,当他再度回到学校时,他的成绩一塌糊涂, 全部是 D,但是很快他就赶上了班上的同学。不过,他在小学时从来没有得过 A。1949年,他的母亲带领全家移民美国。在美国,贾里尼克一家生活非常贫困,全家基本是靠母亲做点心卖钱为生,弗莱德自己十四五岁就进工厂打工补助全家。
贾里尼克最初想成为一个律师,为他父亲那样的冤屈者辩护,但他很快意识到他那浓厚的外国口音将使他在法庭上的辩护很吃力。贾里尼克的第二个理想是成为医生,他想进哈佛大学医学院,但经济上他无法承担医学院 8 年高昂的学费。与此同时麻省理工学院给于了他一份(为东欧移民设的)全额奖学金。贾里尼克决定到麻省理工学电机工程。在那里,他遇到了信息论的鼻祖香农博士,和语言学大师贾格布森 Roman Jakobson (他提出了著名的通信六功能)[注释一],后来贾里尼克又陪着太太听最伟大的语言学家乔姆斯基(Noam Chomsky)的课。这三位大师对贾里尼克今后的研究方向--利用信息论解决语言问题产生的重要影响。
贾里尼克从麻省理工获得博士学位后,在哈佛大学教了一年书,然后到康乃尔大学任教。他之所以选择康乃尔大学,是因为找工作时和那里的一位语言学家谈得颇为投机。当时那位教授表示愿意和贾里尼克在利用信息论解决语言问题上合作。但是,等贾里尼克到康乃尔以后,那位教授表示对语言学在没有兴趣而转向写歌剧了。贾里尼克对语言学家的坏印象从此开始。加上后来他在 IBM 时发现语言学家们嘴上头头是道,干起活来高不成低不就,对语言学家从此深恶痛绝。他甚至说:"我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。" 这句话后来在业界广为流传,为每一个搞语音识别和语言处理的人所熟知。
贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。1972年,贾里尼克到IBM 华生实验室(IBM T.G.Watson Labs)做学术休假,无意中领导了语音识别实验室,两年后他在康乃尔和IBM 之间选择了留在IBM。在那里,贾里尼克组建了阵容空前绝后强大的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的语音识别 Dragon 公司的创始人贝克夫妇,解决最大熵迭代算法的达拉皮垂(Della Pietra)孪生兄弟,BCJR 算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻译统计模型的布朗。
七十年代的 IBM 有点像九十年代的微软和今天的 Google, 给于杰出科学家作任何有兴趣研究的自由。在那种宽松的环境里,贾里尼克等人提出了统计语音识别的框架结构。 在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题。而贾里尼克把它当成通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架结构对至今的语音和语言处理有着深远的影响,它从根本上使得语音识别有实用的可能。 贾里尼克本人后来也因此当选美国工程院院士。
贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明了二十年后,才得以广泛应用。IBM 于是把它列为了 IBM 有史以来对人类最大贡献之一,并贴在加州 Amaden 实现室墙上。遗憾的是 BCJR 四个人已经全部离开 IBM,有一次IBM 的通信部门需要用这个算法,还得从斯坦福大学请一位专家去讲解,这位专家看到 IBM 橱窗里的成就榜,感慨万分。
贾里尼克和 IBM 一批最杰出的科学家在九十年代初离开了 IBM,他们大多数在华尔街取得了巨大的成功。贾里尼克的书生气很浓,于是去约翰霍普金斯大学建立了世界著名的 CLSP 实验室。每年夏天,贾里尼克邀请世界上 20-30 名顶级的科学家和学生到 CLSP 一起工作,使得 CLSP 成为世界上语音和语言处理的中心之一。
贾里尼克治学极为严谨,对学生要求也极严。他淘汰学生的比例极高,即使留下来的,毕业时间也极长。但是,另一方面,贾里尼克也千方百计利用自己的影响力为学生的学习和事业创造方便。贾里尼克为组里的每一位学生提供从进组第一天到离开组最后一天全部的学费和生活费。他还为每一位学生联系实习机会,并保证每位学生在博士生阶段至少在大公司实习一次。从他那里拿到博士学位的学生,全部任职于著名实验室,比如IBM, 微软,AT&T 和 Google 的实验室。为了提高外国人的英语水平,贾里尼克用自己的经费为他们请私人英语教师。
贾里尼克生活俭朴,一辆老式丰田车开了二十多年,比组里学生的车都破。他每年都邀请组里的学生和教授到家里做客,很多毕业了的学生也专程赶来聚会。在那里,他不再谈论学术问题,而会谈些巩俐的电影(他太太是哥伦比亚大学电影专业的教授),或是某著名教授被拉斯韦加斯的赌馆定为不受欢迎的人等等。但是他聚会的食物实在难吃,无非是些生胡萝卜和芹菜。后来贾里尼克掏钱让系里另一个教授承办聚会,那个教授每次请专业大厨在家作出极丰盛的晚宴,并准备许多美酒,从此这种聚会就转移到那个教授家了。
除了巩俐的电影,贾里尼克对中国的了解就是清华大学和青岛啤酒了。他有时会把两个名字搞混,有两次被香港科技大学的 Pascale 冯教授抓住。
贾里尼克说话心直口快,不留余地。在他面前谈论学术一定要十分严谨,否则很容易被他抓住辫子。除了刚才提到的对语言学家略有偏见的评论,他对许多世界级的大师都有过很多“刻薄”但又实事求是的评论,这些评论在业界广为流传。贾里尼克在四十多年的学术生涯中居然没有得罪太多的人 ,可以说是一个奇迹。
注释一:
贾格布森的通信模型
1 上下文
2
信息
3
发送着 --------------- 4 接收者
5
信道
6 编码
发表评论
-
真正属于主题爬虫的圈子
2010-12-15 14:46 4829主题爬虫圈子:http://fcrawl.group.i ... -
判断网页的编码(转)
2010-12-04 21:11 980判断网页的编码我们主要是为了在解析网页时出现一些乱码问题。主要 ... -
java获取网页主信息之五:测试(转)
2010-12-04 21:09 9311.所需文件 param.txt:存放需要提取信息的网 ... -
java获取网页主信息之四:抽取信息块(转)
2010-12-04 21:08 1050从已经建立完成的html树中抽取主信息。 packag ... -
java获取网页主信息之三:html to tree(转)
2010-12-04 21:07 10911.所需文件 param.txt:存放需要提取信息的网 ... -
java获取网页主信息之二:辅助操作(转)
2010-12-04 21:06 9131.栈操作 package Source; ... -
java获取网页主信息之一:html树操作[转]
2010-12-04 21:03 11501.节点操作 package Source; ... -
主题爬虫
2010-11-29 09:19 1110昨天刚创建了一个主题爬虫的群,欢迎对主题爬虫感兴趣的朋友加入, ... -
数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
2010-11-26 22:33 835今天各种汉字输入法已 ... -
数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
2010-11-26 22:32 1064前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有 ... -
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
2010-11-26 22:32 891在日常生活中,包括在 ... -
数学之美 系列二十 -自然语言处理的教父 马库斯
2010-11-26 22:31 885我们在前面的系列中介 ... -
数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
2010-11-26 22:31 915我们在前面的系列中多次提到马尔可夫链 (MarkovChain ... -
数学之美 系列十八 - 矩阵运算和文本处理中的分类问题
2010-11-26 22:30 861我在大学学习线性代数 ... -
数学之美 系列十七 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 (下)
2010-11-26 22:30 844我们上次谈到用最大熵 ... -
数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作-弊问题(Search Engine Anti-SPAM)
2010-11-26 22:29 889自从有了搜索引擎,就 ... -
数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型
2010-11-26 22:27 934我们上次谈到用最大熵 ... -
数学之美 系列十五 繁与简 自然语言处理的几位精英
2010-11-26 22:26 905我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上, ... -
数学之美 十四 谈谈数学模型的重要性
2010-11-26 22:25 801[注:一直关注数学之美 ... -
数学之美 系列十三 信息指纹及其应用
2010-11-26 22:25 832任何一段信息文字,都 ...
相关推荐
《谷歌黑板报》系列文章深入探讨了数学在信息检索和自然语言处理中的核心作用以及其奇妙的应用。本文将从统计语言模型、中文分词、隐含马尔可夫模型、信息度量、布尔代数、图论、信息论、贾里尼克公式、相关性计算、...
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek),当时贾里尼克在IBM公司做学术休假(Sabbatical Leave),领导了 -批杰出的科学家利用大型计算机来处理人类语言问题。...
- **定义**:自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个分支,它研究如何让计算机理解、解释和生成人类自然语言。自然语言是指人们日常使用的语言,如汉语、英语等,而非编程语言或...
#### 贾里尼克的故事和现代语言处理 贾里尼克(Fred Jelinek)是统计语言处理的先驱,他的工作极大地推动了NLP领域的发展,特别是将统计方法引入语言模型和语音识别。贾里尼克的故事激励了一代又一代的研究者,他的...
《贾里贾梅小时候(三)》一文,讲述的是一段关于童年的故事,尽管作为IT行业的专业人士,我们的工作通常与技术相关,但通过此故事,我们可以提炼出一些与人、商业沟通及决策相关的知识点。 1. 沟通技巧:在贾里和他...
贾里尼克及其团队在IBM的研究,以及Google等公司的后续研究,都证实了统计语言模型在自然语言处理中的有效性和重要性。 通过对《程序员数学》的分析,我们可以总结出如下知识点: 1. 统计语言模型的基本概念及其在...
特别是贾里尼克等人在IBM华生实验室的工作,将语音识别率显著提高,推动了自然语言处理研究的实质性突破。进入21世纪后,深度学习技术的引入,尤其是词向量模型、循环神经网络(RNN)、长短时记忆网络(LSTM)等技术...
统计语言模型的提出者之一是语音和语言处理的大师贾里尼克(Fred Jelinek)。他在IBM公司工作期间,利用大型计算机处理人类语言问题,并于1990年代初提出了统计语言模型。此后,李开复在语音识别领域进一步验证了...
他的故事激励着每一个青少年,要勇敢面对生活中的困难和挑战,学会独立思考和处理问题。 而在《女生贾梅》中,贾梅这个角色则从女性的视角出发,展现了女孩子们在成长中遇到的困惑和挑战。贾梅对同名同姓的农村女孩...
《男生贾里》是秦文君的一部描绘当代中学生生活的小说,以其生动的故事、幽默的语言和鲜明的人物个性赢得了读者的喜爱。这本书通过一系列的故事,展现了主人公贾里丰富多彩的内心世界和他在成长过程中的种种经历。 ...
内含Waterworld是由OOPD处理游戏引擎开发的基于OOPG的演示。 Deze引擎是基于2D拼版制作的。 Waterworld kan hierbij als voorbeeld dienen hoe een dergelijk project inhoudelijk moet worden opgezet。 Ook kan ...
儿童文学作家秦文君的《小男生...通过贾里和他朋友们的故事,我们不仅能够享受到阅读的乐趣,还能从中学习到如何处理生活中的挑战,更好地理解青少年的世界。对于各个年龄层的读者而言,这都是一本值得细细品味的佳作。
《男生贾里》作为一部深受青少年喜爱的儿童文学作品,由著名儿童文学作家秦文君所著,通过生动的人物塑造、贴近青少年生活的故事情节,为青少年读者提供了丰富的精神食粮。通过对这本小说的深入阅读与理解,我们可以...
《男生贾里》心得体会五篇合集.doc
男生贾里读后感(11篇).doc
- 贾里最初对鲁艳青有些抵触,但在共同处理校外噪音问题后,他对鲁艳青的看法发生了变化,认为她是个负责任且热心的同学。这种转变源于他们共同的经历和合作。 7. 最坚固的门: - 校长所说的“最坚固的门”不是...
- **贾里**:故事的主角,性格单纯、正义感强,但在面对困难时也会显得有些冲动和急躁。 - **鲁智胜**:贾里的朋友,虽然有时候好心办坏事,但本意是为了帮助贾里。 - **鲁艳青**:一位勇敢且有责任心的女学生,最初...