/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
自然语言处理领域的两种创新观念
张俊林
timestamp:2006年11月26日
自然语言处理作为一个研究领域,曾经是一个颇为冷门的方向,但是现在随着互联网搜索概念股的疯狂被投资人追捧,搜索和自然语言处理逐渐成为学术领域的显学。借着感恩节的当口,让我们这些靠自然语言处理技术混饭吃的兄弟们也表达一下感激之情:感谢CCTV,感谢CHANNEL V....不对,排错马屁了。应该是:国际主义阵营感谢GOOGLE,民族主义阵营感谢百度,是你们在纳斯达克上市给了我们这些人混口饭吃的机会,使得我们从吃不饱饭的非洲难民阵营进化到勉强能吃饱的社会主义初级阶段那群人的阵营,顺便还带给我们跨入吃得更好的资本主义阵营的梦想。
其实,真正应该感谢的是互联网,现在互联网的数据实在是太多了,所以现在大家上网面临的问题不是没有信息的问题,而是信息太多找不到自己所需要的信息,这个时候搜索和语言处理就体现出用武之地了。我们需要采取技术手段把过多的嘈杂的信息整理的头头是道,这样网民才能便捷地找到自己想要的东西。所以我个人乐观的认为,随着互联网的发展,搜索和自然语言处理会成为越来越重要的工具。
自然语言处理作为一个研究领域,其成长历程应该说是比较坎坷的。很早的时候,也曾风光过,通俗的说就是:咱也阔过。那时候研究人员都采用规则的方法,就是大家想一些处理规则,然后计算机按照人想的规则去处理文本。开始大家都还是很乐观的,期望自然语言处理能够大师拳脚,很快应用到各行各业。但是现实的残酷很快打碎了人们的美梦,发现现实世界的复杂不是人想出一些规则就能搞定,而且规则多了还会出现规则之间打架的问题。总而言之,自然语言处理(NLP)成为了一个鸡肋方向,食指无味,气质可惜。直到统计方法破石而出,NLP才见到了一丝曙光,并且有渐渐光大门楣,光宗耀祖的趋势。现在统计方法基本上占了所有NLP子领域的山头,
漫山遍插统计大王旗,统计方法应用效果也确实不错。基本上可以进入实用阶段了。
但是,目前NLP学术研究基本上处于发展平台期,就是说大局已定,能做的就是在一些细枝末节的方向上做些修修补补的工作,你去看ACL/COLING这些最高级别的国际会议的论文就知道所言非虚,一个研究领域进入平台期
的标志是:假设你几年不看论文,等想起来去看最新的论文,发现大家还是在一个圈子里面绕来绕去的。现在的研究圈子模式已经变成了:
各种数学模型是一个万能工具箱,研究人员从这个工具箱里面取出不同的工具,然后用这些工具来进行修修补补的工作。场景基本上如下: A博士说了:你用隐马尔科夫分词?那我用隐马尔科夫标注词性;此时又跳出来一位B博士:你们太落后了,居然还在玩隐马尔科夫?我都玩到最大熵了。话音未落,C博士飞起一脚把B博士踢下台去:瞧你那熊样,还最大熵呢?你以为现在才是二十一世纪初啊(B博士敬佩而又无辜的眼光望着台上的C博士,挠着头想:难道现在不是二十一世纪初么),听说过CRF么?我不仅CRF了,我都CRF好几年了。
总而言之,现在NLP研究基本上和补鞋匠的工作有的一拼。就好像用不同型号的胶水来补不同牌子的鞋子一样,看着挺热闹,其实没啥意思在补也不能把一双布鞋补成一双运动鞋,顶多是把一双破布鞋补成看上去不那么破的布鞋而已。有时候,补完一个小洞后又露出一个大洞,只是布鞋匠不说而已。
说说我理解的NLP的两种创新。其实,其他领域估计也差不多,而且,我的看法看起来相当象废话,其实基本上就是废话,世上废话本来就很多,
在多两句也无妨。
一种创新是研究模式的颠覆,这需要大智慧,是所谓的大创新。就像刚开始的规则方法的出现,后来统计方法的一枝独秀,再到最近的大家都嚷嚷要把统计和规则结合起来搞。当然,我个人对两者结合的效果持怀疑态度,因为以我愚钝的智力看不出两者到底有多大的互补性,至于是否真有效那就走着瞧吧。现在需要的是一种完全不同的处理思路,至于是什么,估计谁也不知道,NLP呼唤爱因斯坦。
另外一种创新是应用创新,就是说大家采用的核心技术其实差不多,都那么点货,其实你也不用藏着掖着,你怎么做的外人不知道,内人
还不知道么?这个时候最好的方法是用同样的核心技术做不一样的应用。应用创新可能是目前更加值得关注的创新方法。
至于搜索研究领域,跟NLP处境差不多,基本上是难兄难弟的关系。从最初的内容匹配到后一阶段的链接分析,在之后基本上停留在链接分析上没怎么动过窝,大家一样在从事补鞋的工作。
说道搜索,就顺便谈谈国内的搜索公司,其实百度也好,雅虎也好,包括后起之秀搜狗,奇虎也好。大家用的什么技术估计自己心理都有数,哪个敢跳出来说我有独门秘笈?如果真跳出来了,只能问候一声:骗子你好。除此之外,无话可谈。大家技术上其实都差不多,可能闻道有先后,但是道就是那些道。
分享到:
相关推荐
Transformer是一种革命性的深度学习架构,它改变了自然语言处理领域,尤其是对于处理序列数据非常有效。传统的RNN(循环神经网络)虽然能够处理序列数据,但受限于其串行处理方式,导致训练速度较慢且难以并行化。...
为解决上述问题,《融合预训练语言模型的成语完形填空算法》一文提出了一种创新的算法:TALBERT-blank算法。该算法的核心在于优化预训练语言模型的使用方式,通过参数共享的思想,将成语选择问题转化为填空与候选...
在此基础上,作者周子荷通过研究历史案例,如教学机器和LOGO语言,分析了教育技术发展的两个境界:从基础科学到技术创新,以及科学技术的耦合发展。这一分析有助于理解技术创新与基础科学研究如何互相促进,共同推动...
科技创新、社会创新和人文创新是按照创新领域划分的三种主要类型。创新思维的核心在于超越,包括对自身思维惯性和惰性的超越,以及对思考前提、逻辑和关系的超越。 在公共关系活动中,创新思维发挥着关键作用,它...
BERT,全称Bidirectional Encoder Representations from Transformers,是一种基于Transformer架构的深度学习...BERT的成功展示了深度学习在理解和处理自然语言方面的巨大潜力,为自然语言处理任务提供了强大的工具。
达闼科技公司自然语言处理实验室的创新成果—用户会话领域识别系统,通过融合语言规则与深度学习技术的先进方法,在领域识别领域崭露头角。本文将深入探讨该系统的设计理念、实现过程以及在实际应用中的表现和优势。...
Simula语言是世界上第一种面向对象(Object-Oriented,简称OO)的编程语言,它的出现标志着计算机科学领域的一项重大创新。本书《Simula语言的诞生》通过其设计者之一Ole-Johan Dahl的视角,详尽地介绍了Simula语言从...
- **C#与VB.NET的应用层开发**:这两种语言提供了丰富的库支持和高级抽象,使得开发者能够快速构建复杂的业务应用程序。C#尤其适用于Web服务、桌面应用等领域,而VB.NET则因其简洁的语法和易于学习的特点而在教育...
实践能力和缄默认知是两种不同类型的智慧,前者关乎生存和实际操作,后者侧重于行动导向的认知和目标实现。 问题的解决是创新思维实践的重要部分,问题被定义为对不满意事态的反映,需要我们智能应对。论题则涉及...
同时,教师和家长应该努力培养幼儿愿意进行数学交流的意识,使之成为一种自然的互动过程。 另外,数学语言的特点在于其符号性和抽象性,幼儿在使用数学语言的过程中,能够逐步从具体的操作过渡到抽象的思考。同时,...
6. 创新思维的工具:自然语言、科学语言、社会语言和图像文字都是表达创新思维的工具,其中自然语言最为常见。 7. 创新障碍:首先需要克服的是观念障碍,因为旧有的思维定势可能阻碍创新的发生。 8. 蜜蜂与苍蝇...
接着,APL和SNOBOL是两种早期的动态语言。APL以其独特的符号系统和数组处理能力而著称,而SNOBOL则强调文本处理和模式匹配。 SIMULA 67是数据抽象的先驱,它引入了类和对象的概念,为面向对象编程奠定了基础。ALGOL...
在自然语言处理领域,LoRA(Low-Rank Adaptation)是一种创新的算法,旨在优化和个性化大规模语言模型。这些模型,如BERT、GPT等,通常拥有数十亿乃至上千亿的参数,使得它们在特定任务上的微调变得既耗时又计算密集...
在计算机编程领域,C#语言是一种由微软公司推出的面向对象的编程语言,它在设计时受到了C/C++语言的影响,但同时又进行了许多改进和创新,使其更适合现代软件开发的需求。C#语言的核心特点包括简洁性、强类型安全性...
ChatGPT的爆火,揭示了人工智能(AI)在自然语言处理领域的巨大潜力,尤其是向着通用人工智能(AGI)的方向迈进。AGI是指具有广泛智能能力的机器,能够处理各种复杂任务,而不仅仅是单一领域的专长。 描述中提到的...
- **自然语言特性**:自然语言具有民族性、地域性、模糊性和社会性等特点,这些特点影响着语言的使用和发展。 - **问题的分类**:从认知角度出发,问题可分为界定明确的问题(封闭性问题)和未界定明确的问题(开放...
程序的执行方式主要有两种:解释和编译。解释型语言(如VB)的源代码在运行时逐行转化为机器可执行的代码,而编译型语言(如C++)则在执行前将整个源代码编译为可执行文件,执行速度更快,但需要编译过程。 编程的...
2. **语言与思维的关系**:语言决定论和思维决定论是关于语言和思维之间关系的两种理论。语言决定论认为语言塑造我们的思维方式,而思维决定论则主张思维独立于语言。实际上,科学研究表明语言与思维是相互影响的,...
目前的查询方法主要有两种:基于遍历RDF文件的查询方法适用于少量数据,而将RDF信息以特殊格式保存在关系数据库中的方法,在面对大量数据时效率不高。因此,为了满足日益增长的RDF查询需求,研究者们需要在保持RDF...
在大模型的应用领域,由于模型本身就是一种重要的语言资源,因此其治理需要强调其基础资源地位。这意味着我们需要从标准化、评测和伦理规制三个角度来考虑。标准化旨在确保模型的输出质量和服务的一致性,评测则关注...