原文地址:http://blog.sina.com.cn/s/blog_729574a0010134bq.html
原文内容:
【问1】:基于规则方法和基于统计方法,被称为自然语言处理的两大“阵营”,并且上升到理性主义和经验主义“之争”的高度。请问,这个概括是否准确?两大阵营“之争”到目前为止是否已经见分晓?
【答】:确实有两种技术路线之争。从上个世纪九十年代初阵营划分确定以来,从主流杂志、主流文章、主流技术、主流产品等各方面看,其中一种大获全胜。这是一个基本的事实。任何进一步的讨论,都首先要基于这个事实。
进一步追究,胜的一方,确实是基于统计的方法。那么败的一方是基于规则的方法吗?我认为不是。最多只能说,是基于规则方法当中的某种主流技术路线。但是,这种主流技术路线,不足以概括基于规则方法的全部,也不足以决定基于规则方法的未来。特别是,基于规则方法和理性主义不存在必然的逻辑捆绑。人们对基于规则方法有诸多误解,基于规则方法的主流技术路线也有诸多弱点和缺陷,值得一切尊重语言事实、尊重规则的人进行深入的反思。我们这个问答系列,就是试图在对基于规则方法进行深入反思的基础之上,探索基于规则方法未来发展道路的一个尝试。笔者认为,基于规则方法的处境前所未有地艰难,但也正在孕育着巨大的机会,“抄底”在即。
【问2】:那么,语言是有规则的吗?语言是可以用规则来描述的吗?
【答】:语言有多个层次。为简化问题起见,以下“规则”仅指词法和句法规则,更深层的语义语用规则暂不考虑在内。
首先让我们看一看“规则”及其对应的英文术语rule的含义。在英语中,规则(rule)与尺子(ruler)是同根词。在汉语中,“规”是圆规,“矩”是角尺,二者都是依据某种标准产生几何图形的工具,而“则”具有“明示的条文”的含义。英语中Rule还兼有统治的意思。在现代汉语中,作为名词的“规矩”和“规则”同义,但“规矩”比较口语化,“规则”更具书面语风格。“规则”的意思是“对一个社会群体有强制约束力的明示的条文”。
规则的强制约束力来自于两个方面。第一个方面是来自社会的约定。所谓约法三章,所谓社会契约,说的都是有人来制定并遵守规则。不方便拿到台面上但在台面下仍然被讲究和遵守的是“潜规则”。第二个方面是来自自然规律的强制。由人类社会中热衷科学的人士发现自然规律,用人类的概念体系表述出来,在应用科学知识的场合比如工程设计中遵守。规律是客观的,规则是人类用自己的概念对规律作出的表述。囿于人类认知能力所限无法清晰表述但仍在暗中起作用的是“隐规则”。
具体到语言,语言是人们约定俗成并与时俱进的符号交际系统。既然约定俗成,那语言就是靠口耳相传,本质上就不需要什么明示的条文,也不需要人们协商产生,把小孩子放到一个现成的语言环境,小孩子自然就能学会。一些部落只有语言没有文字,一些社会缺乏甚至全无学校教育,但这都不妨碍他们自发地形成和传承语言。既然与时俱进,那语言就确实在社会的发展中改变着自己的模样,一些词死了,另一些词新生出来;一些现象淘汰了,一些现象新冒出来。旧瓶也可能装新酒,老树也可以发新芽。一些网络新词层出不穷,一些语言在经历了不同历史时代后形式上出现了巨大变异。
这样看来,语言是一种不以单个个体的意志为转移的客观存在。作为单个个体只能适应而不能约定,因此语言的规律性有跟自然规律相像的一面;语言又可根据群体行为交互作用“涌现”新要素,因此具有大时间跨度下、大群体流通中产生的人为约定性的一面。在人们对一种语言的认识能力不足之时,拿不出有关这种语言的完整的明示的规则体系,但这不表明不存在暗中起作用的“隐规则”。
因此,语言和规则,从语言诞生之始,就注定存在一对深刻的矛盾。任何所谓的语言规则,都是人(语言学家)总结出来的语言学知识,又要求人(语言使用者)去遵守的。理论上,人不总结这些规则,原则上也不妨碍语言的传承。人不把规则明示出来,这些规则也会隐性地发挥作用。仅仅从这个角度看,人总结的语言规则,确实显得可有可无。但另一方面,语言的相对客观的规定性又持续稳定地发挥着不以人的意志为转移的作用,人类求知好奇的天性总会催生一些语言学家,试图用明示的语言学知识来揭示这种作用的奥秘,而人类跨语言交流、人机交流、机机交流的需要则进一步昭示这种语言学知识的巨大社会价值。
所以,语言有客观的规定性,人类有必要总结语言学知识,语言学知识采用规则的形态,是人类对自身语言规律好奇心发展的需要,也是人类为解决人际和人机之间以语言为媒介进行沟通的需要。至于规则长什么样,完全要根据语言的现实来确定。任何先验确定规则长什么样的行为,都是不足取的。在最广泛的意义上,不仅生成语法的规则是语言规则,统计模型、转移概率、词性标注,也都是语言规则。
对文章的思考:
<问题1>
规则和统计现阶段本身就是一个融合方法,nlp中亦是如此。只是底层的基本规则已经达成共识,比如词性、句法、词法等等,而为了把规则具体到一个能用的层次就需要统计来帮助,再加上近年计算机技术的发展,统计方法才占据主流。
另外我想说的是其实规则也是统计出来的,只是是人统计出来的。现阶段计算机无法达到人类的智慧所以规则的统计只能由人来完成。
一般的流程应该是,人为设定一些规则--统计--统计结果中发现更多的规则--统计.........
这样一个循环的过程,只是循环中前面的积累的错误不断放大,另外会人为的增加限制条件,这导致后面的循环逐步不可用.
不知道从规则的方法从哪里发现了抄底的可能?前面说过规则的方法一定start from 人类大脑,但是能潜心研究这种规则的人我没找到(也许董振东、黄昌宁应该算是),没有人去做肯定没有抄底的可能.....
<问题2>
我也认为语言规则是一个隐藏模型,但是会受到外部用法的影响,也就是输入会影响隐模型的状态或者分布。中文的隐模型和英语的隐模型肯定是不一样的。
另外,“作为单个个体只能适应而不能约定,因此语言的规律性有跟自然规律相像的一面;语言又可根据群体行为交互作用“涌现”新要素,因此具有大时间跨度下、大群体流通中产生的人为约定性的一面。在人们对一种语言的认识能力不足之时,拿不出有关这种语言的完整的明示的规则体系,但这不表明不存在暗中起作用的“隐规则” 这句话我觉得抹杀了人的创造性或者语言的创造性,其实生活中是有很多新词不断产生的,niubiability ,屌丝都是很实际的例子
分享到:
相关推荐
标题“英文电影对白mp3+lrc”表明这是一个学习英语发音的资源,包含了电影对白的音频文件(mp3格式)以及同步的歌词文件(lrc格式)。这种资源非常适合那些希望通过观看和听取真实的英语对话来提高听力理解能力、...
教学反思表明,教师根据学生的实际情况设计教学步骤,将复杂的内容化繁为简,激发了学生的学习兴趣。同时,强调了在教学中,对于含义深远的句子,教师应提供充足的时间让学生朗读、思考,这是促进理解的关键。 总的...
通过构建有效的数据存储结构及对白名单规则的组织与配置,实现了Modbus TCP协议的细粒度过滤,更大程度地提高了Modbus TCP通信的安全性,且保证了通信过程的实时性。通过实验分析,提出的方法可以深度安全地过滤...
friends英文对白
1. "三哥经典对白.exe" - 这是一个可执行文件,通常在Windows操作系统中运行。".exe"扩展名表示这是一个程序,用户双击后可以执行。然而,由于网络安全考虑,不应随意下载和运行未知来源的.exe文件,因为它们可能...
文档"怪物史瑞克1电影中英文对白.doc"提供了《怪物史瑞克》第一部电影中的部分对话,这部电影是基于威廉·斯泰格的同名童话故事改编的,是一部混合了幽默、情感和奇幻元素的动画电影。以下是该文档内容所涉及的一些...
### 对白化方程优化的一类新信息灰色GM(1,1)模型研究 #### 一、引言 灰色预测模型是一种重要的数据建模技术,它通过对历史数据序列的分析来预测未来的趋势和发展。该技术在众多领域如经济、社会、环境科学等都有着...
【对白式口语沟通】是人际交流中的重要方式,它与独白形成对比,强调的是双方或多方之间的信息互换和情感交流。这种沟通形式基于单向口头沟通,增加了反馈环节,形成一种互动的循环过程。说者和听者的角色在对话中...
《白杨礼赞》教学反思聚焦于如何有效地教授这篇散文,以及...总的来说,这篇教学反思展示了教师对散文教学的深入理解和实践经验,同时也反映出教师自我反思和持续改进的教育态度,为提升语文教学质量提供了有益的思考。
"对白的数据结构与算法笔记.pdf" 对白的数据结构与算法笔记.pdf 是一份详细的笔记,涵盖了数据结构和算法的各种知识点。下面是笔记的详细摘要信息: 数组 * 数组的定义和操作 * 数组的应用场景 链表 * 链表的...
11. 教学反思:教案中包含教学反思环节,这是教师自我评估和改进教学方法的重要部分,有助于教师不断优化教学过程,提高教学质量。 综上所述,这份文档提供了全面的语文教学资源,包括教学设计、预习指导和课后反思...
### 基于混沌理论的微弱信号检测方法 #### 引言 混沌检测作为一种新型的信号处理技术,与传统检测方法大不相同。它的核心思想是利用混沌系统的特性,尤其是对初始条件的高度敏感性。当微弱信号被注入到混沌系统中...
https://gitee.com/chenyang918/chinese_chatbot_corpus通过这个代码解析https://download.csdn.net/download/weixin_32759777/12566940这个数据得到
1. 对话生成:通过对电影对白的学习,模型可以生成逼真的对话,这对于虚拟助手、聊天机器人等应用至关重要。 2. 情感分析:由于对话中包含了丰富的情感信息,可以训练模型识别和理解对话中的情感色彩,为情感智能...
毕设&课设&项目&实训-中文聊天机器人,基于10万组对白训练而成,采用注意力机制,对一般问题都会生成一个有意义的答复。已上传模型,可直接运行。 【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、...
游戏对白窗口.zip这个压缩包文件包含了一个实现游戏对白窗口功能的代码示例。在游戏开发中,对白窗口是十分关键的一部分,它用于展示角色间的对话、剧情叙述或者游戏提示,为玩家提供游戏故事的推进和互动体验。下面...
基于反向传播神经网络的白车身在线监测方法可以对白车身的尺寸进行实时监测,并对采集到的数据进行分析,以识别异常模式。 基于反向传播神经网络的白车身在线监测模型 基于反向传播神经网络的白车身在线监测模型...
分析了Duffing方程的基本形式以及Duffing振子的混沌运动,阐述了基于相平面变化进行微弱信号检测的工作原理,并推导出系统发生间歇混沌现象的频差条件和相位差对于系统特性的影响。实验证明该振子对与参考信号频差较小...
森林传统管护向社区共管转型的制度变迁探析——基于对白水江保护区李子坝行政村的实证研究,韦惠兰,鲁斌,社区共管模式在我国保护区管理当中得到了广泛的应用,但其发展仍处于初级实践阶段,且依然存在很多问题值得...
在这个案例中,机器人是通过10万组对白数据进行训练的,这样的大规模数据集有助于机器人学习到丰富的语言模式和表达,提高其应答的准确性和自然度。 “基于注意力机制”是现代神经网络模型中常用的一种技术,尤其在...