潜在语义分析技术对认知科学以及虚拟现实系统的设计也具有启示:
首先,由于LSA可以用数学方法实现对文本的理解,所以可采用LSA分析人对文本的理解。
认知领域中,文本理解研究的主要目标是发现影响读者由文本材料提取信息和保留信息的能力的诸多因素。通常采用让被试者阅读材料,然后让他们回答问题或写一篇进行总结的方式,测试被试由文本中获取了什么样的信息。对文本理解理论的研究也可以说是读者表述文本理解的认知模式的研究(Kintshch,1988)。
在这样的模式下,用一套被称为命题的语义成分代表由文本和被试的总结中所得到的语义信息,同时,对一篇文本作命题分析也能提炼出一套文本中所包含信息的语义基础。同理对被试回答命题的分析,将得到一套被试对文本记忆表述的语义基础。通过对文本和被试总结中出现的信息,在语义水平上的比较则不仅仅局限于词的选择等表面的特征。
而LSA的基础恰是建立在词的语义与文本语义内容的匹配上的,并为此建立语义空间。因此LSA方法能很好地适合于对必须用文本材料来评估学习成绩的心理学和教育学等领域的研究与分析。即通过对被试阅读过的文本执行一种自动分析,推出一个语义空间,利用这个语义空间,按照以命题分析同样的方式来进行文本信息的匹配。
LSA方法还可用来研究文本的连贯性与对文本的理解力。LSA能够测量文本相连结的部分中语义重叠的数量,故能测量文本的连贯性。应用LSA对文本做连贯性测试,结果显示,随着文本连贯性的增加,LSA测试出的连贯性也随着增高。由于文本连贯性的命题重叠测量已经被建立成为一种有效的测量文本理解力的方法。对于文本命题重叠的计算既可以在局部也可以在整体水平上执行。因此,文本的命题分析能够显示什么地方文本的连贯性被打破,并且将影响阅读者的记忆力。对这些地方的破损加以修复,就能够改进人的整体的理解力。
从技术角度看,用LSA连贯性测试还可以进行文件分割。文件分割的目标是识别文本的不同部位是否覆盖不同的主题,并决定在一个文本中什么地方主题发生了变换。一般来说,在文本中连贯性很低的区域倾向于为主题切换的地方。
通过识别连贯性的破裂,人们可以把文本划分成不连续的部分。便可以把大块头文本分裂为更好管理的小单位而具有许多应用,尤其对互联网信息的处理将产生重大影响。
总之,当阅读者阅读多篇文本时,他们一定整合横跨文本的信息,并把它们与以前所具有的知识相结合。LSA能捕捉这些整合的信息,使得LSA统计近似产生的语义相关与读者学习产生的知识结构相合。因此,LSA能够作为一种工具评估阅读者的总结,表述其知识的来源和质量,以计算机技术模式来捕捉阅读者对文本理解的程度,修正他们的缺陷。
其次,LSA能够模拟学习获取知识,为人类认知问题的研究提供了一个新的途径。
认知的最深、最持久的秘密之一是人们在得到很少信息的基础上,如何获取大量的知识,即归纳问题。假设某些领域的知识含有广泛的、大量的微弱联系,如果适当地暴露它们则可以通过推测大大地加强学习效果。关键在于发现通过某种正确操作可以获得的归纳机制以及各种客体和事件之间的类似性。因而便可以在局部得到密集的信息与人们经过大量阅历之后得到的知识的差距之间架起一座桥梁。
Landauer和Dumais教授利用美国大百科全书的30473篇文章中出现的460万个词汇,创造了一个300维的语义空间。运用LSA方法测试托福(TOEFL)考试的同义词部分。这部分有4个选择题,回答每一个问题的正确概率为25%。
LSA选择的正确为64.4%,基本相当于非英语国家的大学生们考出的6.45%的平均成绩,达到了美国大学对非英语国家大学生入学英语水平的要求。LSA方法取得的成功显示了当给出了大量文本时,计算机能够像人类一样,获得词汇意义相类似的知识并达到相当深度。
LSA能够学习并获取知识主要依赖语义空间维数的选择。LSA语意空间的维数和答案选择的正确性之间存在着强有力的非单调相关。当LSA选择太多的维数时,获得的知识是相当贫乏的,当在300维左右操作时,结果相当好。而当选择大大低于100维时,获得的知识再次变得非常贫乏。由此可见,语义空间维数的选择与获取知识结果的匹配状态,似乎某种程度上反映了人类学习知识时,通过归纳的改进可以大大地改进知识的获取与描述。
应该说LSA由文本中学习到了大量的词汇意义。LSA没有利用任何先前语言和认知的类似知识,它独特地建立了一种一般的学习方法,对大量的文本通过选取正确的空间维数(例如300维)达到强有力的归纳效应,学习到了词义的类似性。对照人类,人们在学习语言过程中,语言中也存在着足够的信息,它们含有广泛的大量的微弱联系,当人们暴露在这些信息面前,获取了知识。因此可以说,LSA对人类知识归纳问题提供了一种解决途径。
以这种思路进行的研究有Landuaer和Dumais教授等,通过文本理解、托福测验、学校儿童对词汇的学习等等方面的试验,应用LSA与人类行为相对照,得出了LSA可以获取、归纳和表述知识的结论。以Graesesr教授为首的美国孟菲斯大学的智能系统研究所于1997年开始研制并开发AutoTutor系统,该系统可以对学生用自然语言做出的反馈给以响应(Graesesr,2001)。试验表明Aut0Tuotr在提高学生的计算机素养及抽象思维与动手操作能力方面有显著的优势(Graesser,2003)。
第三认知领域的诸多方面也可借助LSA进行研究,对某些现象提供新的解释、说明和设想。
科罗拉多大学认知科学研究所的Darrell Laham利用LSA方法进行概念分类研究。研究显示,分类可以自我组织,不依靠任何人为代码,仅依靠语言在语料库中的使用方式,通过动态归纳过程发生。概念的含义不是被包装在客体的表述中,而是以语义空间为背景,选择客体之间的相互关系出现的。实际实验显示,对自然分类,LSA的判断与人类判断具有高度的相关性。
LSA方法除了处理词汇意义的类似性之外还提示了理解许多语言属性的一些新途径。例如,词的意义具有流动性,即某个人使用某词与另一人使用该词在意义上稍有差别,或随着时间的流逝人们对某词的理解发生了变化,为了从语言功能或历史上测量个体或群体理解词汇意义上的变化,LSA提供了一种有潜力的技术。LSA对联想问题、场景和语义记忆类比、明示和暗示记忆类比、专家知识等提供了研究的可能性。总之LSA独特地建立了一种一般的学习方法,为理解、解释学习的动力学模式提供了一条吸引人的途径。
以信息加工观点研究人的认知活动是把人的认知活动看成一个信息传送系统,把人们对客观外界的知觉、记忆、思维等一系列认知过程看成信息的传播接受和加工的过程,并对人的思维活动作出定量分析,建立信息加工模式是认知科学的核心任务。LSA就是一个这样的信息加工模式。
LSA模式表面上是一种纯数学的分析技术,实际上却具有更广阔的认知意义。目前,还没有其它的知识获取和知识表达技术不依靠人类的输入知识,像人类一样凭着经验思维就能获取知识的计算模式存在,故LSA在文本理解、学习、思维和获取知识方面经验上的部分成功似乎预示了机器智能的又一个发展趋势。
人脑的认知过程是通过神经元的活动进行的,然而人类至今对神经元和大脑对信息处理的生理机制了解很少。因此LSA也为认知过程的研究提供一条可行的途经。如研究人脑的认知过程,可用心理学的概念解释LSA模式,并显示模式的某些特征。LSA的输入构成的矩阵,可认为行代表单一的事件,列代表事件发生的背景。最后的输出是一种描述,由描述中人们可以计算,测量事件之间、背景之间或事件与背景之间的类似程度,就如同词汇对词汇、段落对段落、词汇对段落之间的类似程度一样。利用LSA的计算过程实际上是把局部信息组合并浓缩成为一种普遍的描述,在这个过程中,LSA捕捉到了具有局部信息的所有事件之间多变的相关的偶然性。
还可以进一步把LSA视作神经网络,LSA是一种单一的,但却是相当大的三层神经网络。每一个事件(或词)构成了第一层神经元,每一个曾经发生过事件的场景构成了第三层神经元,几百个第二层的神经元承担完成连接第一层与第二层,第二层与第三层神经元的任务。每一种类型的事件,单一场景地描述起一种横跨两层神经节的活化作用。这种神经网络可以创造出人造的场景,反过来操作场景可以产生能适应变化强度的事件来表述他们本身。奇异分解可理解为把归纳问题的机理具体化,即它可以方便地变换维数,并应用于一个学习者多年的经历才能遇到的大量数据上,在某些方面与人类大脑存储、再处理信息方面具有大约相近的效应。
信息科学和信息处理技术的发展为用信息方法研究思维过程提供了理论基础。LSA恰恰为思维过程的研究提供一条可行的途经,这对于人类智能的开发,认知过程规律的揭示有巨大的意义。概率潜在语义分析具有优于潜在语义分析的诸多特点,是在潜在语义分析基础上的进一步改进。虚拟导师系统的设计主要采用概率潜在语义分析技术。
分享到:
相关推荐
潜在语义分析(Latent Semantic Analysis)或者潜在语义索引(Latent Semantic Index),是1988年S.T. Dumais等人提出的一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对...
这是使用 EM 算法的概率潜在语义分析的 python 实现 参数 描述 数据集文件路径 数据集的文件路径 停用词文件路径 停用词的文件路径 ķ 话题数 最大迭代 EM算法的最大迭代次数 临界点 判断对数似然收敛的阈值 主题词...
这篇硕士论文《基于潜在语义分析的大学概况中文问答系统》是大连理工大学2004年的一份学术成果,主要探讨了如何运用自然语言处理技术,特别是潜在语义分析(Latent Semantic Analysis, LSA),来构建一个有效的中文...
潜在语义分析(LSA)就是一种用来揭示这种话题结构的无监督学习技术。LSA的核心在于对单词-文本矩阵进行奇异值分解(Singular Value Decomposition, SVD),以此来捕获文本数据中的隐藏模式。 在LSA中,我们首先...
**概率潜在语义分析(Probabilistic Latent Semantic Analysis,简称PLSA)**是一种在文本挖掘和信息检索领域广泛使用的统计建模技术。它通过构建一个混合模型来解析文档中的词项分布,揭示隐藏的主题结构,并理解...
概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)是机器学习和自然语言处理领域中一种重要的无监督学习方法,主要用于文本数据的分析。它通过构建概率生成模型来揭示文本集合中隐藏的话题结构,即...
本实验旨在通过具体的编程实践加深对编译原理中语义分析部分的理解与掌握。语义分析是编译器设计中的一个重要环节,其主要任务是对源程序进行更深层次的语法检查,并在这一过程中收集类型信息等数据,为后续的代码...
在这个实验中,“实验三_编译原理语义分析_语义分析_sectionnef_”主要关注的是如何利用Java语言实现编译器的语义分析部分。 1. **编译原理**:编译原理是一门研究编程语言如何转换为另一种语言的学科,通常涉及...
语义分析位于其中间,其任务是对解析出的语法结构进行意义验证,并生成相应的符号表信息。这个过程不仅检查源代码的语法是否正确,还要确保其语义正确,即表达的意义符合编程语言的规则。 在这个项目中,开发者提供...
### 编译原理中的语义分析与歧义分析——基于Java实现 在计算机科学领域,编译原理是理解和设计编程语言的重要基石。其中,语义分析和歧义分析是编译过程中不可或缺的环节,尤其在现代高级编程语言的编译器开发中...
只做潜在语义分析!!由于lsa和ca(或对应分析)的结果可能不同,你应该比较结果并取更好的!!我之前提交过CA.m所以你可以使用这个,如果可以的话喜欢!( ...
语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查, 进行类型审查.例如一个C程序片断: int arr[2],b; b = arr * 10; 源程序的结构是正确的. 语义分析将审查类型并报告错误:不能在表达式中使用一个数组...
该实验报告的主要目标是通过递归下降语法制导翻译法,对算术表达式、赋值语句进行语义分析并生成四元式序列。 在实验报告中,我们首先需要设置语义过程,包括emit函数和newtemp函数。emit函数的功能是生成一个三...
针对多文档文摘生成过程中话题容易中断和文摘句子语义出现不连贯这两个研究难点, 分析了潜在语义分析聚类算法在句子排序中的应用, 以期提高文摘的生成质量。先采用潜在语义分析聚类算法将文摘句子聚类, 从而形成话题...
第17章“潜在语义分析”是这本书中关于自然语言处理的一个关键部分,旨在探讨如何从大量文本数据中提取隐藏的、抽象的语义结构。潜在语义分析(Latent Semantic Analysis,LSA)是一种用于理解和表示文档集合的技术...
下面将对语义分析的基本概念、过程以及C语言实现进行详细阐述。 一、语义分析简介 语义分析是编译器的第二阶段,它紧随词法分析和语法分析之后。词法分析负责将源代码分解为一个个符号(token),语法分析则构建出...