http://ling.cass.cn/yingyong/courses/nlpbase.htm
一、概述
计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。
计算语言学的研究也像其他学科一样,有科学研究与技术研究两个层次。科学研究的目的是发现语言的内在规律、探索语言理解和生成的计算方法、建设语言信息处理的基础资源;而技术研究则借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。
自然语言信息处理的应用目标是使人与计算机之间用自然语言进行交流。具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。
随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。然而,由于学科理论发展的局限和汉语本身的复杂性,目前我国计算语言学理论和方法的研究还不能为开发汉语信息处理应用系统提供足够的支持。多年来国内计算语言学和自然语言处理学科发展的特点之一是,应用型研究和实用系统开发的目标比较明确,投入相对较多,也取得了一些成果;而基础理论和方法的研究则相对薄弱。1998年-2002年期间的研究情况和发展态势依然如此。在本文上述的各种应用目标中,研究力量比较集中的项目有:文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译,还有文本信息提取和过滤。另外,语言资源的建设和基于语料库的语言分析方法也受到了格外关注,取得了比较快的进展。下面先简要叙述计算语言学和语言信息处理领域有代表性的基础研究,再介绍面向应用的研究和实用系统的研制,然后谈谈语言资源的建设,最后介绍有关的学术会议和期刊、论著。这些工作都以书面语为研究对象,针对口语的研究将作为语音识别与合成专题另文介绍。
二 语言信息处理的基础研究
作为《中国语言学年鉴》当中一个分支学科的内容,这里主要叙述的是语言信息处理领域里与语言研究直接有关的专题,或者叫作面向信息处理应用的语言研究。不包括语言计算处理方法的研究和以技术为主的工作,例如统计意义下的建模方法、机器学习的算法、文字识别与汉字输入技术,等等。
2.1 面向信息处理应用的语言研究
在计算语言学和语言信息处理学界,关于语言问题的研究往往有自上而下和自下而上两种动机。前者关心如何用语言学的理论解释某种语言(比如汉语)的现象,后者注重解决语言工程和应用实践中提出的实际问题。
自上而下的典型代表是在形式语义学的理论框架下研究汉语的语义问题,也叫做逻辑语义方法[8][12]。这种方法用内涵逻辑语义模型来分析汉语词语的构造、解释汉语词语的意义。其中的基本问题是,用形式化的方式描述词语、词语所表示的概念、词语指称的实体以及三者之间的关联关系,然后应用模型论方法对汉语语句的结构形式进行语义解释。这种观点是我国的计算机科学家借鉴国外对印欧语言的研究成果,结合汉语的实际提出来的,在词语的语义理解、歧义解读、短语构造等方面,都有个案分析的尝试。然而要想在汉语理解研究中得到系统性的结果,这种方法还有许多困难,其中之一是,它要求结构形式上的复合运算与语义上的组合运算具有同构关系,因此需要先定义一个形式化的汉语语法,才能对应地定义语义模型和语义计算规则,而目前我们还没有办法找到这样的汉语语法理论。
对于句法分析和语义分析的先后关系,《语义指向的形式模型研究》[8]则持另外一种观点,认为在很多情况下,语义分析不一定必须经过句法分析。这篇文章根据Frege的组合性原则,提出了一个形式模型,描述词或词组的语义与其所处语境的语义之间的制约关系,把语义指向定义为:用类型化的结构特征描述角色的语义,用特征结构间的匹配和偏序关系确定语义指向,以实现完全不依赖于句法分析的语义指向分析。
概念层次网络(又称HNC理论)是九十年代我国学者针对汉语信息处理提出来的语义和概念体系[10]。这个理论建立了一个计算机可操作的符号体系,描述人类的语言概念空间。符号体系分成三个层面,第一是概念基元层面,对应自然语言的词语;第二是句类基元层面,对应自然语言的语句,第三是语境基元层面,对应自然语言的句群、段落及篇章。在符号体系内,用关联性原则代替自然语言符号体系的任意性原则,来描述各种基元之间的关系。HNC在自然语言处理中起作用的主要是句类分析方法。1998-2002年期间,HNC在汉语分析、理解和生成、机器翻译、汉语文本分类等方面得到了应用,一些根据HNC的方法描写、处理汉语和外语的报告也陆续发表出来[20]。
更多的基础研究课题来自语言工程和应用实践。其中从语言信息处理的角度研究汉语的构词、造句和语义问题得到了比较多的重视。汉语形式和和意义之间的关系很灵活,一种结构形式经常表示多种意义,一种语义内容也经常可以用多种结构形式来表示。这就使计算机在分析和理解汉语的时候缺少形式上的依据,对许多歧义现象没有有效的辨别方法。因此语言信息处理的基础研究需要语言学、尤其是语言学应用性研究的支持。对于语言研究来说,计算机的出现也带来了一个新的参照物,它能帮助人们认识到一些在旧的参照物下难以揭示出来的语言现象和规律,帮助验证语言规则是否正确和相互兼容,有助于提高规则的精确程度。近年来信息处理研究和语言学本体研究两个领域的沟通越来越多,有许多语法学家从信息处理的角度研究汉语,促进了语言信息处理基础研究的发展。语法学家从信息处理的角度研究汉语,《“名词+动词”词语串浅析》[15]是较早的一篇文章,它为计算机判别出现在任何一个话语语流中的“名词+动词”词语串是不是一个合法的组合给出了条件和规则。在1998-2002年期间,这样的研究越来越多,限于篇幅,这里只能略举几例。
《面向中文信息处理的现代汉语短语结构规则研究》[19]尝试用形式化的方式在句法和语义两个层级上归纳现代汉语短语结构的组合规则,探讨解决短语结构歧义问题的途径,为计算机分析和理解汉语提供必需的语言知识。《汉语“复合态”的语义关系类型及其生成的有向性》[6]认为,由于汉语的时制主要用词汇手段实现,表示状态意义的语法形式具有多样性,加上汉语“复合态”的组合形式受严格的句法语义条件限制,所以在生成汉语“复合态”时,不宜象英语那样使用全循环递归的方法,而应使生成过程在有限受控的条件下进行。该文描述了根据汉语的态制系统生成复合态的过程,给出了复合态的三种语义关系类型,并说明了复合态生成的有向性。《信息处理中汉语动名语义关系分析的不同层次》[27]分别从“类型”、“组合”、“焦点”、“特征”、“指向”和“隐含”等方面,讨论汉语动名语义关系的分析问题。《并列结构的外部句法特征》[9]在人工标注并列结构的汉语语料基础上,考察了有标记并列结构出现的外部环境,找出了可能的左边界特征词和右边界特征词,并给出了语言学上的解释,目的是为计算机自动识别汉语的并列结构找到规则。《面向汉英机器翻译的句组研究》[9]认为,以句组为翻译单位可以解决一些以小句为翻译单位时不容易处理的问题,例如简缩称代和概指称代意义的确定、省略成分的补充、词语切分、多义选择、无标记时态和单复数的生成等。《汉英机器翻译中时间短语的分析与时制计算》[9]为了分析汉语语句中时间短语的时制和事件的时刻,先对汉语时间短语进行分类,然后用形式化的方式表示时间短语的语义结构和上下文中的时间信息,再以此为基础提出一种计算时制的算法,并且在汉英机器翻译系统中作了应用实验。《二字短语凝固度分级初探》[6]是在研制《信息处理用现代汉语分词词表》的过程中,针对二字短语扩充词表带来的歧义切分大幅度增加问题而进行的研究。该文对扩收的二字短语按凝固度分级,证明结构类型、成分字替换率、前/后接歧义度、接续类型等属性与凝固度密切相关,提出了二字短语扩充词表的分级方案和具体的分级消歧对策。
在面向语言工程和应用实践的研究中,歧义辨识也是一个重要问题,同时又是一个难题。语言学家对汉语歧义的研究主要涉及歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数等内容,希望找出人与人在交际过程中产生歧义的原因以及各种歧义的类型。语言信息处理需要在语言学家的研究成果的基础上,考察计算机在处理自然语言的过程中所遇到的歧义现象,分析与歧义现象有关的语法和语义问题。近年来有许多关于如何处理歧义问题的研究,它们大多从具体问题入手,主要是多义词的义项选择,歧义字段的切分,歧义格式的辨识等问题,目的是针对每种歧义结构提出消解歧义的对策。
2.2 关于语言资源建设的专题研究
语言资源主要指语料库和语言知识库(详见本文第四节)。关于语言资源建设的专题研究包括语料的标注、语料的分析和处理,以及用于语言资源建设的各种字表、词表和标准、规范。
2.2.1 语料的标注
对语料进行标注、分析和处理的目的,是更多地发掘出语料中蕴藏的语言知识。汉语语料库最基础的标注工作是词语切分,进而有词类标注、句法信息标注和语义信息标注。对于双语或多语语料库来说,还有另一项处理内容:语料对齐,即把不同语种的语料分别在段落、语句、短语、词等不同的层次上对齐。除此之外,一些语料处理的算法和技术也在研究之列,例如语句成分相似度的计算。
自动分词是我国较早开始研究的汉语信息处理技术之一[3]。在语料库的建设当中,自动分词方法得到了更深入的研究和实际的应用。自动分词系统一般需要以一个词表为基础做字符串匹配运算,匹配算法有正向或逆向最大匹配法、双向匹配法、最佳匹配法、联想-回溯法等等。这些算法都只能根据分词词表做机械式的匹配,不能解决切分时遇到的歧义现象,也不能处理词表中没有收录的词(称为未登录词)。所以汉语自动分词研究的基本问题不是匹配,而是歧义切分的消解和未登录词的处理。
切分歧义有两种类型:交集型切分歧义和包孕型切分歧义。近年来人们围绕这两种歧义的识别和消解问题,进行了许多从形式描写到具体辨识的工作,有基于规则的方法(譬如:扩充转移网络、短语结构文法、有限状态自动机等),也有基于统计的方法(譬如:隐马尔夫模型、词性二元统计规律等)。通过实践人们逐渐形成了基本的共识,这就是歧义切分消解必须有充分的语言知识来支持。词频、词法、音节、语素性质、语法结构关系、语义甚至语用信息,都能够在歧义切分消解中起作用。消除歧义时分析的层次越深,计算机对语言知识的质量和规模的要求就越高。
未登录词主要包括两类,一是新词或专业术语,二是专有名词(人名、地名、机构名等)。对前一种未登录词的处理,一般是用基于大规模语料库的统计方法(统计量有互信息、t-测试差、字串频等)生成新词词表,再经过人工筛选,补充到分词词典当中。处理后一种未登录词的依据,是从各类专有名词库中总结出来的统计知识和人工归纳出来的专有名词的结构规则,再利用文本中对该类专有名词有标识意义的上下文信息做进一步的鉴定。
词性自动标注是在自动分词的基础上,根据带有词类信息的词典,给切分出来的词语标上词类标记,标注中的主要问题是如何辨别兼类词,目前大多采用基于统计的方法处理。和自动分词一样,即使是用统计方法,词性自动标注也需要足够的语言知识来支持,分析的层次越深,对语言知识的质量和规模的要求就越高。
本来自动分词和词性标注是汉语分析和理解过程的起始阶段,应该为下一步的句法和语义分析提供初始信息。但是它们又需要某些句法和语义知识的支持才能得以完成。这样一来,自动分词反倒需要依靠句法和语义分析的某些结果作为条件了。这种“循环论证”产生的原因,是我们在用一种机械的过程来模拟人的语言过程,这种机械的模拟距离人类真正的语言过程还很遥远,也过于肤浅,而且目前的研究水平也无法让我们在这个问题上有质的进展,因此汉语的自动分词和词性自动标注这样一个看似基础和简单的问题,在短时间内还不能取得经得起考验、并得到广泛认同的结果。
双语或多语语料库建设的基本问题是语料自动对齐,即找出双语文本片段之间的对译关系。这种同时含有两种语言对译信息的语料库可以用于涉及双语研究的许多领域,譬如机器翻译、词典编纂等。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次,粒度越小,提供的语言信息就越多,应用的价值也越大。因此双语自动对齐问题的研究大多集中在词汇一级上。目前有两类方法用在词汇级对齐的研究中,一是基于统计的方法,即先对大量的双语语料进行统计训练,获得双语对译词的同现概率,建立词汇对齐的统计模型,用来判断词的对译关系。二是基于词典的方法,或者把统计手段和词典结合起来,譬如基于双语词典的词汇对齐方法、基于语义相似度的词汇对齐方法和基于位置变形距离的词汇对齐方法[6][8]。含有汉语的双语语料库大多采用这种方法。
2.2.2 语料的分析和处理
分词和词类信息是语料的基本标注内容。除此之外,语料标注的内容还有表示语句结构关系的短语(也叫语块)标记和句法标记,以及表示词语义类和词语之间语义关系的语义标记。带有这些标记的语料库称为语块库、句法树库、语义标注库等。这些标注实际上是对语句进行短语分析、句法分析或语义分析的结果,因此标注的过程本身就是语言分析的过程。譬如语块的分析和标注,语块是具有一定句法功能的基本短语,介于词语和句子之间。语块的标注要解决切分分析和关系分析两个问题,前者是在句子中把各种语块找出来,例如主语语块、述语语块、宾语语块、兼语语块、状语语块、补语语块、独立语块等;后者是弄清每个语块内部的结构层次和结构关系,并加上标记。经过这样处理的语块汇集在一起,成为语块库。在此基础上应用机器学习的方法,提取有用的识别特征,训练形成有效的统计语言模型,用于基本短语的自动识别、动词搭配知识的获取和浅层句法分析等方面的研究。
这样的语料分析和处理过程叫做基于语料库的语言分析和语言知识获取,它包括三件事情:语料标注、语句(或语块)分析和语言知识获取。三者之间既有因果关系,也有互动关系。目前理想的做法是(以句法标注为例),先按照最终的分析目标,确定一个基本的句法标记集,在语言学家的参与和指导下,标注并得到一个较小的句法标注语料库(例如:句法树库)。再以此为基础构建统计语言模型,训练产生一个句法分析器(Parser),它可以对现有标注语料库的语料进行恰当的处理。然后用这个句法分析器处理新的语料,针对处理过程中暴露出来的语言知识缺乏问题,触发句法知识自动发现流程。在语言学家指导下,确定合适的知识表示模式,在已有的句法分析器中加入机器学习模块,从新的大规模语料文本中自动习得有用的知识。再把这些知识补充到现有的句法分析器里,逐步提高现有分析器的准确程度和对新的语言现象的处理能力。同时利用一定的人工校对,逐步扩大标注语料库的规模,使它可以为句法分析器提供更多的统计数据。
近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识获取方面主要有以下研究和进展:提出了包括基本短语、功能语块、复杂句子等句法单元的汉语句法标记集;分阶段进行了建立汉语句法标注语料库的实验,开发了200万字规模的功能语块库和100万词规模的句法树库;对汉语句法规则和词语搭配知识获取以及句法分析器进行了探索。目前见到的研究报告多数是关于数据资源的建设问题,相比之下,语言学方法和计算方法的报道还比较少。
2.2.3 用于语言资源建设的字表、词表和标准、规范。
字表、词表和标准、规范是语料标注、分析和处理的基础。1998-2002年期间,来自语言学和语言信息处理两个领域的学者合作制定了《信息处理用现代汉语分词词表》和《信息处理用现代汉语词类标记集规范》[27]。
制定《信息处理用现代汉语分词词表》(以下简称《分词词表》)的起因是,国家技术监督局于1993年发布了中华人民共和国国家标准GB/T 13715-92《信息处理用现代汉语分词规范》,这个规范对推动汉语自动分词研究的发展起到了积极的作用。但是其中也有不少表述模糊、难以操作之处,譬如对某些介于“词”与“词组”之间的“分词单位”,用“结合紧密、使用稳定(频繁)”来界定。《分词词表》的作用是对《分词规范》进行补充,把“结合紧密、使用稳定(频繁)”的“分词单位”都收进词表。这样就把《分词规范》中的模糊之处变成了可操作的具体数据。《分词词表》收词的基本原则是:(1)符合语言学规则而且达到常用性指标;(2)词法结构合理而且频度足够高;(3)对拆开后会增加计算机分析的困难的成分,尽量从合;(4)对单字词有几类具体的定义。整个词表由七个分库组成:普通词库、带字母词库、专名库、常用接续库、成语库、俗语库、单字词库。其中普通词库只收语言学规则认可的词。普通词库、专名库和常用接续库又各自下含基础与合成两个子类。这样的设计既注意反映汉语的结构特点,也考虑了自动分词和语句分析的实际需要。值得提到的是,制定《分词词表》的工作是在8亿字语料的支持下完成的,从选定初表、计算各种统计数据、依据定性和定量的原则逐个确定入选词,到用人工分词的语料库进行词表覆盖率检验,最终得到总词数为92843条的《分词词表》,其中一级常用词56606条,二级常用词36237条。
《信息处理用现代汉语词类标记集规范》(以下简称《词类标记集》)从汉语信息处理实际出发,提供了一个现代汉语书面语词类标记的符号体系。它注意吸收语言学家的研究成果,兼顾各家的词类划分观点和体系,制定时遵循三个原则:(1)词类划分的主要依据是词在句子中的语法功能,词的意义有时也起某些参考作用;(2)允许兼类;(3)全部大类应能覆盖现代汉语使用的所有词。《词类标记集》有19个基本词类:名词、数词、量词、形容词、动词、副词、代词、介词、连词、助词、叹词、拟声词、习用语、简称和略语、前接成分、后接成分、语素字、非语素字、其他。每个大类下面又有次类和小类。为了适应语言信息处理的需要,《词类标记集》中的符号不仅要覆盖语言学意义上的词,还要覆盖比词小的单位(如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等),以及比词大的单位(如成语、习用语、简称、略语、标点符号、非汉字符号等)。多年以来,用于信息处理系统的汉语词类标记体系有多种设计方案,在分类的依据、类别的数目和术语的使用等方面各不相同。《词类标记集》的制定,是为了使各种汉语信息处理系统能够在基本共识的前提下,使用比较统一的词类标记符号体系,便于学术交流和数据交换。
2.3 研究中的理性主义和经验主义方法
近年来计算语言学和语言信息处理在研究方法上有两种思路:理性主义(Rationalism)和经验主义(Empiricism)。前者是先依据某种语言理论建立语言模型,再从语言模型构造规则系统,所以也叫基于规则的方法。后者是在调查和分析大规模语料的基础上,用统计学的方法处理自然语言,也叫作基于语料库的方法。
多年来在计算语言学和自然语言处理的研究中,理解和生成语句的必经之路是句法分析和语义分析。因此在很长一段时间里,许多语言处理系统都是基于规则的。建立这样的系统,从整体构架到具体的处理技术,语言学的研究都是必不可少的基础。基于规则的方法最早应用在机器翻译当中,被证明在一定范围内是相当有效的。随着研究的深入和应用目标的发展,人们逐渐发现,实际上很难用规则的形式把各种语言事实和理解语言所需要的背景知识充分地表达出来。所以,基于规则的自然语言处理系统往往只能在极其受限的某些语言环境中获得一定的成功。
经验主义者认为基于规则的方法存在以下缺陷,一是通过内省方式得到的语言规则往往有脱离言语实际的可能;二是规则的灵活性较差,容易忽略语言中那些经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象;三是当需要添加新的规则时,又必须注意协调与已有规则的关系,避免规则之间产生矛盾。为了克服这些局限,他们用统计学方法从大规模语料中分析和归纳语言现象和规律,再用得到的统计规律或语言模型来处理自然语言。他们认为这些统计规律或语言模型体现了从真实语料中直接获取的语言知识,不但可以用于语言信息处理系统,还能用来检验语言学研究中依靠手工搜集材料的方法所得出的结论。基于语料库的方法自九十年代初从国外引入以后,在自然语言处理的许多分支领域得到了应用。其中最有成效的当数语音识别与合成,在书面语处理的各个层面上(词语、句法、语义),这种方法几乎也都有用武之地。其中有代表性的应用是汉语自动分词和词性标注、文本信息检索、信息抽取、信息过滤和文本自动分类。与基于语料库方法有关的研究工作包括:各种语言成分的对齐(Alignment),语言知识的学习和获取,各种语言统计模型的建立、语言成分相似度的计算,等等。语料库方法的优点是可以使语言现象数量化,这非常适合计算。目前的研究大致可以分为两类:一是基于简单相关统计的方法,也可以称为语言资源性分析;二是在统计意义下的建模方法,这涉及机器学习的算法问题。经过几年的研究和实践,人们也开始对统计语言模型本身进行分析和再认识,提出了适用的统计模型与统计模型的适用范围、统计量的繁与简、统计对象的升华、多统计量的结合等问题。
基于语料库的方法当然也有自己的局限性。在人们对语言的机制还缺乏系统了解,还没有一种适合信息处理的语言理论可以应用的时候,经验主义实际上是一种依靠“量”来获取“质”的策略。也就是说,它认为大量语言现象的统计规律能够确切地反映语言的结构规律和言语过程的认知规律。而实际上这还是有待证明的观点。我们还不能从语言学的角度解释所采用的统计方法和语言模型,说明统计数据的语言学意义。统计语言模型需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于我们能为它提供什么样的语言学知识作为参数。目前统计语言模型方法在机器翻译系统中效果不佳,其主要原因应该不是模型本身的计算能力有限,而是能够提供给模型的关于机器翻译的知识太少。我们目前的基础研究还没有发掘出足够的语言学知识,或者是还没有把这些知识系统地、结构化地组织起来。这一点对基于规则的方法来说,同样也是亟待解决的问题。
把两种方法结合起来,取长补短,互为补充,也许是更好的办法。目前已有不少语言信息处理系统采用了这种混合策略。譬如在机器翻译中用规则分析句子的句法结构(有些语言现象用规则处理比较方便),用基于语料库的方法处理词语的搭配问题。经验主义者也认识到,即使算法的主要基调是基于统计形式的(例如向量空间模型),规则形式仍然能够找到合适的位置,例如那些概率接近1的规则(即几乎无例外的规则)。
三 应用性的研究和实用系统的研制
3.1 机器翻译
机器翻译是我国最早开始研究的自然语言处理应用系统,已经走过了近半个世纪的历程。近年来在吸收国外研究成果和技术的同时,结合中文信息处理的实际,在专题研究和实用系统开发等方面都有新的进展。
3.1.1 基于规则的方法和基于语料库的方法
研制实用机器翻译系统的方法有两种:基于规则的和基于语料库的。前一种方法通过对语言现象的综合和认识,总结规律,得到语法、语义等规则,机器翻译系统运用这些规则分析源语言,形成一种确定的内部表示形式,再把它转换成相应的目标语结构,最后生成目标语译文。第二种方法又可以分成基于语料统计的方法和基于实例类比的方法两种。前者在大规模语料库的支持下,用统计学的方法建立语言模型,计算语言翻译概率模型的参数,根据翻译模型完成翻译过程。后者也要建立大规模的双语语料库,分别存放各种翻译单元的大量实例及其对应的译文,翻译时,系统先在语料库中寻找与源语翻译单元类似的实例,然后模仿实例从源语的翻译单元构造目标语的译文。多年来基于规则的方法一直是我国机器翻译研究的主流。九十年代以后,基于语料库的方法开始得到重视,建立了用于机器翻译的双语语料库,进行了基于语料统计或基于实例类比的机器翻译实验。
机器翻译是自然语言信息处理中最复杂的领域,翻译过程中的每个环节都有许多难以处理的问题。这是由于人类自然语言受很多因素的影响,这些因素之间又相互交织,使得翻译系统的研制既涉及语言学的研究,也与其他领域的知识有关。如果只采用单一的翻译策略,不管是基于规则,还是基于语料库,都只能解决一部分问题。因此,把两种方法结合起来应该是一种可取的思路。近年来,如何在同一个系统里融合基于规则和基于语料库的多种机器翻译方法和技术,成为机器翻译研究和开发的一种发展趋势。已经有基于规则的机器翻译系统吸收了实例类比的方法,提出了一种交互式的、混合策略的辅助翻译系统的设计方案[9]。这种系统采用多种翻译处理策略,包括规则分析、类比推理、统计分析,用面向对象的多类型数据库来管理翻译所需的各种信息,并且提供人机交互接口,实现人工对翻译结果的干预。
3.1.2 机器翻译中的专题研究
一个机器翻译系统至少要涉及自然语言的两个语种,既要分析源语言,又要生成目标语言,还可能需要处理两种语言的对比差异。因此机器翻译十分需要语言学研究的支持,需要结合机器翻译应用的实际,研究语法、语义等问题。前些年机器翻译学者对语言问题的研究大多针对外汉翻译系统中的源语言,如:英语、日语等。近几年对汉语的研究逐渐增多,涉及的问题有:汉语时间短语的分析与时制计算[9]、汉语并列结构的识别[9]、汉语动结式的分析[9]、汉语离合词的分析[9]等。歧义和多义的辨别一直是机器翻译的研究重点,近几年对机器翻译中的句法结构歧义、语义关系歧义、指代关系歧义和词义多义等问题也都分别开展了研究。歧义和多义问题的解决,关键在于使源语分析达到足够的深度,这就需要词典提供尽可能全面的信息,另外还要求翻译系统采用的语法体系具有上下文相关分析和处理的能力,这是机器翻译中最难解决的问题之一。
机器翻译的另一类专题研究是知识处理问题,主要有以下几项内容。第一项是机器翻译所需的知识及其形式化表示。机器翻译需要的首先是语言学知识,包括词法知识、语法知识、和词汇信息,除此之外还需要日常知识、社会、文化、历史背景知识和各种专门领域的知识。所有这些不同类型的知识要在计算机中用统一的方式表示出来,并且可以进行有效的操作。第二项是知识的获取问题,指用计算机辅助人来总结、归纳机器翻译所需要的知识,用规范的格式表示获取的知识,自动检测新知识与原有知识的一致性,并且能够根据译文校正的反馈信息使已有的知识不断完善。第三项是知识的管理和维护问题,要随着知识数量的增加,发现隐含、冗余、非一致性、非完全性等问题,对知识库进行调整和优化,提高信息的有效性。
算法设计和软件实现是机器翻译的又一类专题研究,主要包括词法分析算法的设计和实现、句法分析器的设计和实现、转换与生成算法的设计和实现,以及用户环境的设计和实现。算法和软件使语言学理论和语言模型在计算机上得以实现,它们能够支持机器翻译规则的操作,检验理论和方法的可行性,促进与机器翻译有关的语言研究。
3.1.3 应用型机器翻译系统的研制
机器翻译研究的最终目标是提供高质量的实用翻译系统,因此研制应用型的系统始终是机器翻译领域的主流工作。在我国研制的系统中,参与翻译的语言对大多是英汉和汉英。尤其是英译汉系统,投入的力量最多,实用的机器翻译产品也大多是英汉翻译系统。九十年代前期曾经出现了数家机器翻译系统同现市场,用户的期望值被商业化行为提得过高的现象。到了九十年代末,能够继续留在市场上的系统已经不多了。人们也逐渐用更客观和科学的态度对待机器翻译系统的翻译能力和应用目标,认识到机器翻译实际上还是一个不成熟的研究领域。近年来,研究人员根据机器翻译的难点、现有的研制水平和技术发展的可行性,提出了以下几个观点,试图为机器翻译系统的应用定位[9][28]:
(1) 按不同的需求调整机器翻译译文质量的接受标准。如果以浏览(获取信息)为目的,那么译文质量不大高也往往可以接受;如果以辅助翻译为目的,那么按整句当中的翻译单位(词语或词组)提供可选的译文,也可以接受;如果以发表或出版(传播信息)为目的,就需要译文达到准确和可读的标准。
(2) 使机器翻译系统受限。所谓受限,一方面指特定的用户(如某个公司),另一方面指特定的待翻译文本(如天气预报、产品技术手册等)。这样能够使系统的词典、规则和实例更有针对性,减少翻译中的各种歧义。
(3)在翻译过程中采用人机交互的方式。包括译前编辑、翻译过程中的提问和人工干预、以及译后编辑等。
(4) 把机器翻译的阶段性结果与语言信息处理的其他应用目标结合起来。譬如跨语言的文本信息检索和信息提取。
1998年到2002年期间,已有的应用型翻译系统大多进行了改造和优化,扩充了词典或双语平行语料库,有的还增加了新的语言对(日汉、俄汉、法汉、汉英等),提供翻译服务的方式也逐渐多样化,有在网络浏览器环境下的实时浏览翻译,也有以多种文字处理软件(如写字板、记事本及Word)为操作平台的文本翻译,还可以支持常用的邮件管理软件,或者在互联网上提供在线翻译服务。
对汉英翻译系统的投入比较多、研究逐步深入,是这几年机器翻译系统开发中的一个特点。把汉语翻译成英语,首先遇到的问题就是汉语的分析和理解。目前适用于信息处理的语言理论和方法多以印欧语言为目标,应用它们处理汉语时会遇到很多问题和困难。汉语语句的语序灵活,结构简练却寓意丰富,计算机作自动分析的时候缺少形式上的依据。因此,汉英机器翻译一直被认为是一块难啃的骨头。近几年越来越多的汉语语法学者开始从信息处理的角度研究汉语,语言信息处理领域的学者也从应用实际出发研究汉语的词语切分、句法分析、歧义辨识等问题。这些工作为汉英机器翻译系统的开发打下了基础。目前推出的应用型汉英系统,虽然译文质量还不能令人满意,但是可以看出已经做了不少扎实的工作。除此之外,还有几个正在研制的汉英系统和针对汉英机器翻译进行的专题研究。
近几年涉及中国少数民族语言的机器翻译研究和开发工作也有一定进展,已有英蒙和汉蒙机器翻译系统、汉维—维汉机器辅助翻译系统正在实验当中。
3.2 文本信息处理
文本信息处理系统可以帮助人们在大量的文献资料中迅速获得所需要的信息。其中信息检索、信息提取、信息过滤和文本分类成为近几年投入研究最多的文本信息处理应用技术。目前的文本信息处理系统大多采用统计语言模型和语言浅层分析规则的策略,这样就避开了自然语言理解当中难以解决的问题,把一些相对成熟的语言分析技术应用到语言工程当中。所以比起机器翻译来,文本信息处理虽然起步要晚许多年,却取得了快得多的研究进展和应用效果。
早期的文本信息检索(Information Retrieval,简称IR)系统是基于自由关键字和布尔模型的,语言处理技术的含量不高,虽然实用,但检索效果并不很理想。近年发展起来的基于自然语言处理的文本检索技术,已经达到了能够处理大规模开放文本的实用程度。其中采用的语言处理技术有:自动分词,词频统计,识别“有效词”和“停用词”,识别复合短语、专有名词和未定义词,在此基础上用概率统计的方法计算文本的类别特征值,判断检索结果的相关程度。与此同时,文本自动分类和自动文摘技术也被引入到检索系统里,以提高检索的效率和准确度。特别值得注意的是,文本信息检索与机器翻译结合,形成了跨语言信息检索(Cross-language IR)的研究方向,即用某一种语言提出检索要求,计算机在其他语种的文本中检索,再把得到的检索结果翻译成用户指定的语种。
文本信息提取(Information Extraction,简称IE)与文本信息检索的不同之处是,它的目标不是提供用户感兴趣的文档,而是提供结构化的信息,譬如数据库。因此,文本信息提取系统要在更多的自然语言处理技术支持下,把需要的信息从文本中提取出来,再用某种结构化的形式组织起来,提供给用户(人或计算机系统)使用。信息提取技术一般被分解为五个层次:第一是识别专有名词(Named Entity),主要是人名、地名、机构名、货币等名词性条目,以及日期、时间、数字、邮件地址等信息的识别和分类;第二是模板要素(Template Element),即应用模板的方法搜索和识别名词性条目的相关信息,这时要处理的通常是一元关系。第三是模板关系(Template Relation),即应用模板的方法搜索和识别专有名词与专有名词之间的关系,此时处理的通常是二元关系。第四是同指关系(Co-reference),要解决文本中的代词指称问题。第五是脚本模板(Scenario Template),是根据应用目标定义任务框架,用于特定领域的信息识别和组织。
语言自动分析的研究是信息提取技术的基础。在现有的自然语言处理技术中,从词汇分析、浅层句法分析、语义分析,到同指分析、概念结构、语用过滤,都可以应用在信息提取系统中。譬如,对专有名词的提取大多采用词汇分析和浅层句法分析技术;识别句型(如SVO)或条目之间的关系需要语义分析和同指分析;概念分析和语用过滤可以用来处理事件框架内部有关信息的关联和整合。随着对语言的分析逐渐深入,对信息的发掘由浅到深,信息提取的实际应用也从改进搜索引擎、自动问答系统到各种信息的图示化表达(Visualization),逐渐增多。
信息过滤是根据用户的需求用计算机从动态变化的信息流中自动检索出符合要求的信息,多用于互联网上的信息内容安全领域(如根据某种有害信息的特征描述,甄别或截流符合这些特征的网页)。文本分类是在给定的分类体系下,利用计算机根据某种特征对文本的内容进行划分和聚类,自动判别文本的类别。它们大多采用统计语言模型的方法,统计的对象包括词汇、语义信息,词语搭配信息和词语共现信息等。
国际上文本信息处理领域有一个最具权威性的评测会议:每年一次由美国国家标准技术局和美国国防高级研究计划局组织的文本检索国际标准评测会议(TREC)。它不仅提供了含有规范的大规模语料的标准文档库,还提出了一套比较科学的测试评价方法,其评测项目也代表了新的研究方向。如2002年的评测项目包括:跨语言检索、文本过滤、交互检索、网页检索、新信息抽取、问题回答和视频检索。中国近几年每年都高校和科研机构参加评测,在文本信息检索、自适应文本过滤和新信息抽取等项目中多次取得很好的名次。
相关推荐
自然语言处理(NLP)是计算机科学和人工智能领域的一个核心组成部分,旨在使计算机能够理解和生成人类的自然语言,实现人机交互。NLP融合了语言学、计算机科学和数学的理论,涉及到对语言结构的分析、理解以及生成。...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、认知科学以及语言学等多个学科。本综述主要针对中文自然语言处理进行深入探讨,旨在为读者提供全面...
深度学习方法已经在计算机视觉、自然语言处理和自动语音识别等领域得到了广泛和深入的应用,推动了人脸识别、自动驾驶和语音识别等一系列技术的发展和成熟。 图像描述是计算机视觉与自然语言处理融合的早期研究任务...
自然语言处理(NLP)是计算机科学、人工智能和语言学领域中的一个交叉学科,它研究计算机与人类(自然)语言之间的相互作用。自然语言处理的核心目标之一是让计算机能够理解人类的自然语言,并根据这种理解执行各种...
《自然语言处理综述-第三版》是一本详尽介绍自然语言处理(NLP)、计算语言学及语音识别领域的经典教材,由斯坦福大学的Daniel Jurafsky和科罗拉多大学的James H. Martin共同编写。本书的第三版进行了大量的内容更新...
在自然语言处理中,词嵌入是这一思想的具体应用,尤其是在解决词的多义性和稀疏性问题上。 词嵌入是对词的高效表示,避免了独热编码的缺点。独热编码虽然简单明了,但当词汇量增大时,会导致高维且稀疏的向量输入,...
元学习在小样本自然语言处理中的应用是当前人工智能领域的一个研究热点。自然语言处理,简称NLP,它涉及让计算机理解和处理人类语言。在大多数传统的NLP应用中,模型需要大量的标注数据来训练,以便能够准确地处理...
【标题】"CCL#NLP-NABD 2018自然语言处理国际前沿动态综述PPT下载列表.zip" 提供了2018年关于自然语言处理(NLP)领域的最新进展和趋势的详细讲解。这个压缩包包含了多个PPT文件,覆盖了NLP的不同关键领域,为学习者...
预训练语言模型是近年来自然语言处理领域的研究热点,它们已经推动了自然语言处理的发展进入了一个全新的阶段。在这篇综述中,我们将概括预训练语言模型在自然语言处理任务中的应用,包括信息提取、情感分析、问答...
研究的核心目标是构建一个能够理解和处理视觉信息与语言信息相结合的任务的智能系统。这类系统在设计上模仿人类理解世界的方式,通过视觉输入获得信息的同时,结合语言形式的问题进行分析,最终输出准确的答案。 ...
例如,一篇关于人工智能的综述论文可能会探讨机器学习、深度学习、自然语言处理等子领域的最新进展;一篇关于数据科学的论文可能会涵盖大数据处理技术、数据分析方法和可视化工具的应用。 在准备毕业论文时,首先要...
自然语言处理预训练技术是当前人工智能领域中的热点研究方向,其目标是使计算机能够理解和生成人类语言,从而推动机器翻译、对话系统、情感分析等应用的发展。本文将围绕标题《自然语言处理预训练技术综述》及描述,...