四、语言资源的建设
在自然语言信息处理领域,语言资源指的是语料库和语言知识库。前者收录原始的语言材料,后者收录的是反映语言内部结构规律和言语过程认知规律的知识。1998年-2002年期间,国内有许多科研力量投入了这两类项目中。
4.1 语料库
经过科学选材、具有适当规模的语料库能够反映和记录语言的实际使用情况,为语言学研究和应用提供统计数据和各种语言材料。譬如词典编纂,以往收词、立项、释义依靠的主要是编者的语言学知识和语感,语料库的支持将使这种内省和定性分析的方式与实证和定量分析的方式结合起来,这不仅是词典编纂手段的进步,也能够促进词典学的发展。
对于计算语言学基于统计的研究方法来说,语料库的建设更是不可缺少的基础。目前我国已有多个百万字以上容量的汉语语料库和双语语料库(多为英语和汉语),用于语言信息处理的各种研究和应用目的:汉字识别、智能汉字输入、文本自动分类、汉语自动分词、汉语人名地名自动识别、汉语关联词语自动识别、词语多义辨识、句法语义分析、机器翻译,等等。其中比较有代表性的是《人民日报》标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注,到2003年容量为3500万字,是我国第一个大型现代汉语标注语料库[28][29]。在选材方面更有普遍意义和代表性的是平衡语料库。目前国内具有相当规模、并且经过规范化标注的平衡语料库还不多,现有的都还未超过百万字级。国家语委主持的《现代汉语通用语料库》有7千万字生语料,从2001年开始对其1千万字的核心语料进行标注加工。还有一些面向特定研究目标的专用语料库也在建设之中。
对于汉语语料库标注来说,最基本的内容是词语切分标记和词类标记。近年来随着计算语言学研究的深入,汉语语料库的标注出现了多样化的趋势。譬如,对句子中的每个词语,除了切分和词类标记以外,还标注它在句子中的句法结构和功能信息,这样就得到了句法树标注语料库(简称树库tree bank)。如果标注的是组成句子的各种短语信息,得到的就是短语标注语料库,也叫语块(chunk)标注语料库。这两种语料库可以为面向句法的统计语言模型提供训练和测试平台,前者用于语句的句法结构分析,后者用于句子的“浅层分析”或称“部分分析”。除此之外,还有的语料库标注词语的语义属性和句子成分之间的语义关系信息。这种语料库也可以作为统计语言模型的训练和测试资源,用于语句意义的分析和理解。关于句法和语义结构的标注往往需要语法理论和义类体系的支持,例如短语结构语法、依存关系语法、《知网》的语义分类系统[3],等等。
4.2 语言知识库
对语言信息处理来说,语言知识库是不同于语料库的另一种语言资源。语料库由自然出现的书面语或口语的样本汇集而成,通过记录语言使用原貌来呈现语言知识。语言知识库收集的则是经过概括和归纳,具有系统性的语言知识,并且用结构化的形式(譬如数据库)组织起来。如果说语料库作为建立统计语言模型和归纳语言规则的基础,对语言信息处理是一种间接资源的话,那么语言知识库就是使语言信息处理系统得以运行的直接资源。
语言知识库收录各种词法、句法、语义以及与言语过程有关的常识信息。国内目前研制的语言知识库有两种类型,一种用于特定的语言信息处理系统,其收录的内容和结构设计都取决于该系统的应用目标、语言模型和算法。另一种用于通用目的,描述常用词语的基本词汇属性和基本语法属性(例如《现代汉语语法信息词典》[18]),或者描述词语所代表的概念之间的关系、概念所具有的属性之间的关系,以及言语过程中的基本常识(例如《知网》[3][30])。各个具体的语言信息处理系统可以从中提取所需要的语言知识,也可以补充自己需要的特殊知识,还可以在它的基础上开发衍生的语言知识资源。
《现代汉语语法信息词典》[18]是为汉语信息处理而建立的基本语言知识库。自1995年底初具规模,经过不断扩充和修改,到2003年,整个词典的规模和质量有了新的改进。这部词典的理论基础是朱德熙先生提出的“词组本位”语法体系。根据语法-义项相结合的原则,它收录了73000多个词语,并根据语法功能分布的原则,建立了面向语言信息处理的现代汉语词语分类体系,完成了7万多个词语的归类工作。这部词典采用数据库技术,在词语分类的基础上逐个详细描写词语的语法属性信息,主要有:各个词类中的每个词语可以同什么样的词类(或具体的词语)组成合法的句法结构,以及该词语在各种句法结构中能担任什么样的句法成分。譬如描述动词的有46项属性,大致可以分为7类:
1.动词本身的特性:是不是系词、助动词、趋向动词等;
2.动词形态的变化:如VV、V一V、V了V、ABAB、AABB等;
3.动词有无名词特性、能否直接修饰名词、能否直接受名词修饰、能否做动词“有”的宾语等;
4.动词与虚词的关系:前面能否受“不、没、很”修饰、后面能否带“了、着、过”;
5.动词在句中的功能:能否单独做主语、谓语、宾语、状语和补语;
6.动词与后继成分的关系:能否后接结果补语、趋向补语、时量成分、动量成分,能否带宾语;
7.其他属性:如主语是否必须为“复数”。
词典提供的这些信息可以用于汉语分析和生成、汉语文本输入、汉字识别的后校正、汉语语料库标注、汉语文本校对、信息检索、信息抽取等领域。已经有数十家科研单位和公司成为这部词典的用户。
描述语义知识的典型代表是《知网》[3][30]。这是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它描述同类概念之间的关系,例如上下位关系、同义关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿主关系,也描述非同类概念之间的关系,例如属性值和属性的指向关系,事件和角色的关系。它把语义研究置于知识描述的基础上,用网状结构描述语义,从单个概念的静态描述形成相互关联的、动态的知识网络。《知网》2002版收录汉语词语的数量达到了67440个,义项81683个;英文词语66671个,义项85090个。有不少语言信息处理的研究和应用项目把《知网》作为汉语分析、理解和生成的资源。《知网》自己也在利用已有的语言知识系统做进一步的研究和开发,先后推出了中文信息结构库、词语语义相似度的算法、词语相关概念场的构建等衍生资源和语言分析工具。
除此之外,近几年还有其他语言知识库正在研制当中。譬如[29]:现代汉语语义词典、现代汉语短语结构知识库、中文概念词典、汉语句法树库等。值得提到的是,台湾中央研究院在语言知识资源方面也做了相当扎实的工作,资讯研究所研制的“中文句结构树资料库”[31]收录了41100个树图,24万多个词,每句都有完整的结构分析和论元角色标记,并且提供Web检索服务。语言学研究所的“中英双语知识本体词网”[32],可以利用“词汇网络”(WordNet)的架构,提供多重词义和词义关系的检索,也具有Web服务功能。
4.3 基于语料库的语言分析方法
有了语料库,就有了统计语言模型和基于统计的语言分析技术发展的空间。1999-2003年期间,这方面的研究在整个学科领域里是一个热点。从语言信息处理的应用需要出发,在语料库的支持下研究汉语词汇、语法和语义问题的报告日渐增多。这些研究包括:根据逐词索引作汉语词义的调查;对词语搭配进行计量分析;利用量词-名词的搭配数据研究汉语名词分类问题;进行现代汉语句型的统计和研究;分析和统计汉语词语重叠结构的深层结构类型和产生方式;短语自动识别(例如基本名词短语、动宾结构)和自动句法分析的试验;在语句上下文中为词语排除歧义的算法设计;等等[6][8][28]。
基于语料库的语言分析方法各有不同,有的检索或提取语料中的语言实例,有的对语料中呈现的某些语言属性进行计量或统计,然后根据实例或数据来分析和归纳谴词造句的规则,这些都是借助定量分析做定性的研究。另一种方法完全依靠统计学规律,先根据一定数量的、标注了统计量特征的语料(称为训练集)作统计和分析,建立统计语言模型和算法,然后用训练集的语料验证和调试这个语言模型和算法,这一步叫做封闭性测试。封闭性测试达到一定指标以后,再用训练集以外的语料进行开放性测试。这一类语言分析技术的评价指标是测试结果的准确率和召回率。准确率是结果中的正确样例数与结果中全部样例总数的比值,召回率是结果中的正确样例数与实际存在的正确样例数的比值。
今后几年语料库的标注和语言知识库的建设将更紧密地结合计算机理解和生成语言的研究。高质量的语料库和知识库能给语言信息处理提供必需的知识资源,反过来语言信息处理的研究也有助于提高语言知识资源的建设水平。
五 主要学术会议和期刊、论著
计算语言学联合学术会议是国内语言信息处理学界的主要学术会议,从1991年开始每两年一次,由中国中文信息学会、中国计算机学会、中国人工智能学会和北京市语言学会联合举办。会上报告国内计算语言学及语言信息处理研究和应用的进展,讨论学科研究的前沿问题和发展动向,会议的议题有基础性的研究,也有应用系统、技术和产品的开发。会前由程序委员会对提交的论文进行评审,按规定的比例录用其中的一部分,汇集成论文集正式出版。1998-2002年期间,会议分别在北京(1999年)和太原(2001年)召开。这两次会议的论文集分别为:《计算语言学文集》[6]和《自然语言理解与机器翻译》[8]。
每年一次的汉语词汇语义学研讨会是计算语言学分支学科的学术会议,自2000年起到2002年,分别在香港城市大学、北京大学和台北中央研究院召开了三届。研讨会涉及的论题包括汉语词汇语义学的理论、计算及其应用。譬如:词汇资源(词典、义典、本体结构和术语库)的建造;汉语词汇语义的表示、计算和推理机制;汉语词汇语义与自然语言理解其它相关领域的接口;汉语词汇语义学在信息检索、语言分析等领域的应用;汉语语义网络 (Semantic Web)等。
1999年11月由中国中文信息学会主办的第五届环太平洋自然语言处理研讨会在乌鲁木齐召开。会上讨论的议题有:自然语言处理中的词法、句法问题、机器翻译、信息检索、词汇语义、语料库和语言处理应用系统。会议正式出版了论文集《Proceedings of 5th Natural Language Processing Pacific Rim Symposium 1999》。
2001年11月为纪念中文信息学会成立二十周年,在北京召开了学术研讨会,正式出版了论文集。论文的内容涉及计算语言学的应用研究与基础研究,包括机器翻译、汉语自动分词、汉语语音信息处理、汉语文本检索、汉字识别技术的发展、中文的电子出版及电子传播等。
2001年和2002年分别由日本通信综合研究所和北京大学计算语言学研究所主办,召开了两届中日自然语言处理专家研讨会。讨论的内容包括语言信息处理中的句法和语义问题、机器翻译、语音处理、少数民族语言处理、语言信息处理系统平台与工具等。
国内计算语言学和语言信息处理的主要学术期刊是中国中文信息学会主办的《中文信息学报》。教育部语言文字应用研究所主办的《语言文字应用》有专门设置的语言信息处理栏目。《情报学报》和《计算机学报》也经常刊登计算语言学和语言信息处理的论文。另外,新加坡中文与东方语言信息处理学会的《Journal of Chinese Language and Computing》(《汉语语言与计算学报》)也是计算语言学和中文信息处理的专业期刊。
六、参考文献
以下是1998年到2002年期间的主要参考文献:
[1] 曹右琦 主编 《中国中文信息学会二十周年学术会议论文集》,2001年,北京:清华大学出版社
[2] 陈小荷《现代汉语自动分析---- Visual C++ 实现》,2000年,北京:北京语言文化大学出版社
[3] 《当代语言学》,(中文信息处理专号),2001年,第1期,北京
[4] 冯志伟 《计算语言学基础》,2001年,北京:商务印书馆
[5] 黄昌宁 主编 《1998中文信息处理国际会议论文集》,1998年,北京:清华大学出版社
[6] 黄昌宁等 主编 《计算语言学文集》,1999年,北京:清华大学出版社
[7] 黄昌宁 李涓子 《语料库语言学》,2002年,北京:商务印书馆
[8] 黄昌宁等 主编 《自然语言理解与机器翻译》,2001年,北京:清华大学出版社
[9] 黄河燕 主编 《机器翻译研究进展》,2002年,北京:北京电子工业出版社
[10] 黄曾阳 《HNC(概念层次网络)理论》,1998年,北京:清华大学出版社
[11] 蒋 严 潘海华 《形式语义学引论》,1998年,北京:中国社会科学出版社
[12] 靳光瑾 《现代汉语动词语义计算理论》,2001年,北京:北京大学出版社
[13] 刘开瑛 《中文文本自动分词和标注》,2000年,北京:商务印书馆
[14] 鲁 川 《汉语语法的意合网络》,2001年,北京:商务印书馆
[15] 马 真 陆俭明 “名词+动词”词语串浅析,《中国语文》,1996:2,北京
[16] 孙宏林等 浅层句法分析概述,《当代语言学》,2000:2,北京
[17] 翁富良 王野翊 《计算语言学导论》,1998年,北京:中国社会科学出版社
[18] 俞士汶等《现代汉语语法信息词典详解》(第二版),2003年,北京:清华大学出版社
[19] 詹卫东 《面向中文信息处理的现代汉语短语结构规则研究》,2000年,北京:清华大学出版社
[20] 张 全等 主编 《HNC与语言学研究》,2001年,武汉:武汉理工大学出版社
[21] 赵铁军等 编著 《机器翻译原理》,2000年,哈尔滨:哈尔滨工业大学出版社
[22] Proceedings of International Conference on Machine Translation & Computer Language Information Processing, June, 1999, Beijing, China
[23] Proceedings of 5th Natural Language Processing Pacific Rim Symposium 1999, November, 1999, Beijing, China
[24] Proceedings of 2000 International Conference on Multilingual Information Processing, August, 2000, Urumqi, China
[25] 第二届中日自然语言处理专家研讨会论文集,2002年,北京
[26]《情报学报》,第18-22卷,1999-2003年,第1-6期,北京
[27]《语言文字应用》,1999-2003年,第1-4期,北京
[28]《中文信息学报》,第13-17卷,第1-6期,1999-2003年,北京
[29]《Journal of Chinese Language and Computing》(《汉语语言与计算学报》),Vol.9-13,Num.1-2,1999-2003,Singapore
[30]《知网》,http://www.keenage.com
[31]《中文句结构树资料库》,台湾中央研究院, http://TreeBank.sinica.edu.tw
[32]《中英双语知识本体词网》,台湾中央研究院, http://BOW.sinica.edu.tw
分享到:
相关推荐
自然语言处理(NLP)是计算机科学和人工智能领域的一个核心组成部分,旨在使计算机能够理解和生成人类的自然语言,实现人机交互。NLP融合了语言学、计算机科学和数学的理论,涉及到对语言结构的分析、理解以及生成。...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、认知科学以及语言学等多个学科。本综述主要针对中文自然语言处理进行深入探讨,旨在为读者提供全面...
计算机视觉与自然语言处理融合研究进展综述 计算机视觉与自然语言处理是人工智能领域的两个重要分支,近年来,学者们开始尝试将这两个领域的技术融合,以期实现更高级的智能体目标。深度学习方法已经在计算机视觉、...
自然语言处理(NLP)是计算机科学、人工智能和语言学领域中的一个交叉学科,它研究计算机与人类(自然)语言之间的相互作用。自然语言处理的核心目标之一是让计算机能够理解人类的自然语言,并根据这种理解执行各种...
《自然语言处理综述-第三版》是一本详尽介绍自然语言处理(NLP)、计算语言学及语音识别领域的经典教材,由斯坦福大学的Daniel Jurafsky和科罗拉多大学的James H. Martin共同编写。本书的第三版进行了大量的内容更新...
在自然语言处理中,词嵌入是这一思想的具体应用,尤其是在解决词的多义性和稀疏性问题上。 词嵌入是对词的高效表示,避免了独热编码的缺点。独热编码虽然简单明了,但当词汇量增大时,会导致高维且稀疏的向量输入,...
预训练语言模型的应用综述 预训练语言模型是近年来自然语言处理领域的研究热点,它们已经推动了自然语言处理的发展进入了一个全新的阶段。在这篇综述中,我们将概括预训练语言模型在自然语言处理任务中的应用,包括...
【标题】"CCL#NLP-NABD 2018自然语言处理国际前沿动态综述PPT下载列表.zip" 提供了2018年关于自然语言处理(NLP)领域的最新进展和趋势的详细讲解。这个压缩包包含了多个PPT文件,覆盖了NLP的不同关键领域,为学习者...
元学习在小样本自然语言处理中的应用是当前人工智能领域的一个研究热点。自然语言处理,简称NLP,它涉及让计算机理解和处理人类语言。在大多数传统的NLP应用中,模型需要大量的标注数据来训练,以便能够准确地处理...
自然语言处理预训练技术是当前人工智能领域中的热点研究方向,其目标是使计算机能够理解和生成人类语言,从而推动机器翻译、对话系统、情感分析等应用的发展。本文将围绕标题《自然语言处理预训练技术综述》及描述,...
研究的核心目标是构建一个能够理解和处理视觉信息与语言信息相结合的任务的智能系统。这类系统在设计上模仿人类理解世界的方式,通过视觉输入获得信息的同时,结合语言形式的问题进行分析,最终输出准确的答案。 ...