`
andyliuxs
  • 浏览: 139798 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

情感分析简述(转)

 
阅读更多

情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文 基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处(http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html )。

概述

情感分析自从 2002 年由 Bo Pang 提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到 90% 以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然 Bo Pang 实验用的电影评论数据集 http://www.cs.cornell.edu/people/pabo/movie-review-data/ 以及 Theresa Wilson 等建立的 MPQA http://www.cs.pitt.edu/mpqa/ )是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。

目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文 本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目 前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题, N 元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。

由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和 训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的 情感分析势必是将来的研究趋势之一。

在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成 功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析 与基于机器学习的情感分析相结合也将是未来的研究趋势之一。

以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。

起源

虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于( Pang et al., 2002 )基于监督学习( supervised learning )方法对电影评论文本进行情感倾向性分类和( Turney,2002 )基于无监督学习( un supervised learning )对文本情感情感倾向性分类的研究。( Pang et al., 2002 )基于文本的 N 元语法( ngram )和词类( POS )等特征分别使用朴素贝叶斯( Naive Bayes ),最大熵( Maximum Entropy )和支持向量机( Support Vector Machine SVM )将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。( Turney ,2002 )基于点互信息( Pointwise Mutual Information PMI )计算文本中抽取的关键词和种子词( excellent,poor )的相似度来对文本的情感倾向性进行判别( SO-PMI 算法)。

在此之后的大部分都是基于( Pang et al., 2002 )的研究。而相对来说,( Turney et al.,2002 )提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用 SO-PMI 算法计算文本情感倾向性的思想却被很多研究者所继承了。

监督学习

目前,基于监督学习的情感分析仍然是主流,除了( Li et al.,2009 )基于非负矩阵三分解( Non-negative Matrix Tri-factorization ),( Abbasi et al.,2008 )基于遗传算法( Genetic Algorithm )的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯, k 最近邻( k-Nearest Neighbor k -NN ),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。( Pang et al., 2004 )基于文本中的主观句的选择和( Wilson el al.,2009 )基于文本中的中性实例( neutral instances )的分析,都是为了能够尽量获得文本中真正表达情感的句子。( Abbasi et al.,2008 )提出通过信息增益( Information Gain IG )的方法来选择大量特征集中对于情感分析有益的特征。

而对于特征选择,除了 N 元语法和词类特征之外,( Wilson el al.,2009 )提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,( Abbasi et al.,2008 )提出混合句子的句法( N 元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。

除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。( Melville et al., 2009 )和( Li et al.,2009 )提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。( Taboada et al.,2009 )提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。( Tsutsumi et al.,2007 )提出利用多分类器融合技术来对文本情感分类。( Wan, 2008 )和( Wan, 2009 )提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。

基于规则 / 无监督学习

和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了( Turney,2002 )之外,(朱嫣岚 et al.,2002 )利用 HowNet 对中文词语语义的进行了情感倾向计算。(娄德成 et al.,2006 )利用句法结构和依存关系对中文句子语义进行了情感分析,( Hiroshi et al.,2004 )通过改造一个基于规则的机器翻译器实现日文短语级情感分析,( Zagibalov et al.,2008 )在( Turney,2002 )的 SO-PMI 算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于( Blitzer et al.,2007 )将结构对应学习( Structural Correspondence Learning SCL )引入跨领域情感分析, SCL 是一种应用范围很广的跨领域文本分析算法, SCL 的目的是将训练集上的特征尽量对应到测试集中。( Tan et al.,2009 )将 SCL 引入了中文跨领域情感分析中。( Tan2 et al.,2009 )提出将朴素贝叶斯和 EM 算法的一种半监督学习方法应用到了跨领域的情感分析中。( Wu et al.,2009 )将基于 EM 的思想将图排序( Graph Ranking )算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的 k -NN 算法。

从目前的研究可以看出,跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系,但是这样的映射关系或者很难寻找,或者需要相当强的数学证明。所以很多研究借用半监督学习的方法,通过逐次迭代逐渐减少训练集和测试集之间的差异。

 

参考文献:

[1]Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561

[2]Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243

[3]Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433

[4]Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34

[5]Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283

[6]KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04

[7]Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70

[9]Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080

[10]Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04

[11]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86

[12]Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424

[13]Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488

[14]John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447

[15]Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184

[16]Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349

[17]Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320

[18]Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252

[19] 娄德成 , 姚天妨 . 汉语与子语义极性分析和观点抽取方法的研究 . 计算机应用 ,2006,26(11),2622-2625

[20] 朱嫣岚 , 闵锦 , 周雅倩 , 黄萱菁 , 吴立德 . 基于 HowNet 的词汇语义倾向计算 . 中文信息学 报 ,2006,20(1),14-20

分享到:
评论

相关推荐

    文本挖掘概述

    文本挖掘(Text Mining),也被称为文本知识发现(Knowledge Discovery in Text),是一种数据挖掘技术,主要用于分析以自然语言描述的文本。它能够帮助我们从大量的非结构化文本数据中提取有价值的信息和知识。文本...

    基于CNN的多样化限制Boltzmann机的情感分析序列级潜在主题建模方法

    首先,简述情感分析的目的,它主要在于检测句子或文档的情感极性,以及在情感文本中提取关键成分,如情感的持有者、目标或者意见的表达。情感分析技术随着社交网络和Web2.0的发展而被深入研究,目的是自动识别自然...

    简述幼儿教育小学化倾向现状及对策分析

    家长对幼儿教育的理解也往往停留在表面,过分强调知识技能的学习,而忽视了对幼儿情感、社交和思维能力的培养。 【教学体系问题】 在教学体系上,幼儿教育小学化的体现是教师主导型的教学模式,幼儿成为被动接受者...

    PyPI 官网下载 | sentivi-1.0.5.tar.gz

    《PyPI官网下载 | sentivi-1.0.5.tar.gz——Python情感分析库的深度探索》 在Python编程世界中,PyPI(Python Package Index)是开发者们获取和分享软件包的重要平台。今天我们将深入探讨一个名为"sentivi"的Python...

    论述题与简述题1

    - 分类广泛应用于各个行业,包括信用卡欺诈检测、医疗诊断、图像识别、垃圾邮件过滤、情感分析、金融风险评估等。它可以帮助我们预测未来事件的可能性,做出更明智的决策。 5. **聚类分析的应用领域**: - 聚类可...

    简述员工述职报告怎么写.doc.doc

    - 开头:简述职责、工作认识和目标,概述已取得的成绩。 - 主体:详述关键工作,包括工作过程、效果、失误及其分析,展现个人处理问题的能力和思考深度。 - 结尾:对自己的工作进行评价,表明态度,以感谢的语言...

    简述个人述职报告写法.docx

    - **问题分析**:承认工作中存在的问题和挑战,分析原因并提出改进方案。 - **自我反思**:对个人的表现进行诚恳的自我评价,包括成功之处和需要改进的地方。 - **未来规划**:提出下一阶段的工作目标和计划,...

    简述互联网背景下的小学语文习作教学.pdf

    这个过程不仅能够拓宽学生的知识视野,还能够锻炼他们分析和归纳资料的能力。 二、多媒体PPT在写作教学中的应用 多媒体技术的引入,特别是PPT的使用,在小学语文习作教学中起到了非常好的辅助作用。它能够帮助学生...

    持续学习简述.rar

    持续学习在NLP中的应用包括实时的语义理解、情感分析和对话系统。通过持续学习,NLP模型可以更好地理解新兴的词汇、俚语和网络用语,提高其在实际交流中的性能。 机器学习算法是实现这些功能的基础。持续学习涉及到...

    人工智能简述 人工智能

    - 思维像人类的系统:这些系统试图模仿人类的思维方式,包括直觉、情感和认知过程。 - 思维理性的系统:这些系统以逻辑和分析为主导,追求最优化的决策。 - 行为像人类的系统:这些系统通过模仿人类的动作和反应来...

    置信学习简述.rar

    通过引入置信度,模型可以更好地处理这些不确定性,提高问答系统、情感分析和机器翻译等任务的性能。 AI生成内容(AIGC)是另一个受益于置信学习的领域。在自动生成文本、代码或者图像时,模型需要对生成结果的正确...

    自然语言处理技术简述及在矿冶领域的应用展望.docx

    语义分类涉及文本分类和情感分析,信息配对常见于问答系统,机器翻译如谷歌翻译等,结构化信息处理包括词性标注、分词、命名实体识别等,而对话管理则涵盖长对话和短对话,是构建智能对话系统的关键。 在方法论上,...

    简述布鲁姆的教学目标分类.doc

    该理论将教学目标分为认知领域、情感领域和动作技能领域三个主要部分,进一步细分为多个层次。 在认知领域,布鲁姆将学习目标分为六级:记忆、理解、应用、分析、综合和评价。这些层次描述了学生从掌握基础知识到...

    幼儿园建构区活动开展的现状分析.zip

    7. **效果评估**:根据观察和数据反馈,评估建构区活动对孩子认知、社会性和情感发展的积极影响。 8. **改进建议**:提出改善活动质量、提升儿童参与度、优化教师指导等方面的策略和建议。 9. **结论**:总结全文...

    三国参考演义简述题.docx

    这表明领导者的情感决策可能导致战略失误,而对手的冷静分析和耐心等待往往能赢得胜利。 4. 水淹七军:关羽巧妙利用地形和气候条件,成功击败曹军,展示了他对战场环境的洞察力和战术运用的灵活性。但过于自信也...

    家庭心理治疗简述参照.pdf

    不良的家庭情感交流和交往模式,可能会导致和维系个体的不良行为和心理状态。因此,家庭心理治疗在治疗过程中不仅关注出现问题的个体,更加重视家庭系统整体的调整和改善。通过定期组织家庭成员参与家庭会谈,治疗师...

    简述大学英语翻译教学设计与改革实践.pdf

    【大学英语翻译教学现状分析】 大学英语翻译教学作为英语专业教育的重要组成部分,旨在提升大学生的英语应用能力,增强他们的国际视野,为跨文化交流提供坚实基础。然而,当前我国的大学英语翻译教学面临诸多挑战。...

    高效利用无标注数据:自监督学习简述.rar

    例如,Bert模型在NLP领域的成功就是自监督学习的一个典型例子,它通过“掩码语言模型”任务学习到丰富的语义信息,随后在下游任务如问答、情感分析中表现出色。 自监督学习的优势在于可以极大地降低对标注数据的...

    2021年简述员工述职报告怎么写word版.docx

    4. 情感表达:在叙述事实的同时,适当融入个人情感,使报告更具人性化。 5. 态度诚恳:诚实地面对自己的不足,积极接受群众的监督和建议。 最后,述职报告的结尾部分应简洁明了,对自己进行客观评价,表达对未来...

Global site tag (gtag.js) - Google Analytics