`
lzj0470
  • 浏览: 1272734 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

文本分类入门(八)中英文文本分类的异同

阅读更多

从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。

  对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段“特征”的最基本单位),例如原文是“中华人民共和国今天成立了”的文本就要被切分成“中华/人民/共和国/今天/成立/了”这样的形式。而对英文来说,没有这个步骤(更严格的说,并不是没有这个步骤,而是英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来)。中文分词的效果对文本分类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。分词本身也是一个值得大书特书的问题,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。

  预处理中在分词之后的“去停止词”一步对两者来说是相同的,都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“我们”,“在”,“了”,“的”这样的词汇都会被去除,英文中的“ an”,“in”,“the”等也一样。这一步骤会参照一个被称为“停止词表”的数据(里面记录了应该被去除的词,有可能是以文件形式存储在硬盘上,也有可能是以数据结构形式放在内存中)来进行。

  对中文文本来说,到此就已初审合格,可以参加训练了(笑)。而英文文本还有进一步简化和压缩的空间。我们都知道,英文中同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。而正因为词义本身没有变化,仅仅词形不同的词就不应该作为独立的词来存储和和参与分类计算。去除这些词形不同,但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,例如在一篇英文文档中,经过词根还原后,“computer”,“compute”,“computing”,“computational”这些词全都被处理成“compute”(大小写转换也在这一步完成,当然,还要记下这些词的数目作为compute的词频信息)。

  经过预处理步骤之后,原始文档转换成了非常节省资源,也便于计算的形式,后面的训练阶段大同小异(仅仅抽取出的特征不同而已,毕竟,一个是中文词汇的集合,一个是英文词汇的集合嘛)。

  下一章节侃侃分类问题本身的分类。

分享到:
评论

相关推荐

    文本比较器(可分析两个纯文本文件的异同)

    在给定的“文本比较器”中,其主要功能是分析两个纯文本文件的相同点和不同点。通过使用特定的算法,这些工具能够高效地对比两个文件的每一行甚至每一个字符,找出它们之间的异同。在显示结果时,通常会用不同颜色的...

    Bc.exe 文本文件比较工具,能够提高工作速度,快速对比文件异同。

    文本文件比较工具,能够提高工作速度,快速对比文件异同。文本文件比较工具,能够提高工作速度,快速对比文件异同。文本文件比较工具,能够提高工作速度,快速对比文件异同。文本文件比较工具,能够提高工作速度,...

    C# 文本对比算法比较两个字符串的不同

    首先,文本对比的基本目标是识别两个文本之间的异同,这在版本控制、文档编辑、代码审查等场景中非常有用。在C#中,我们可以使用内置的`string`类的一些方法,如`Equals()`、`Compare()`或`IndexOf()`,但这些方法...

    文本比较器,jsp文本比较器,方便清晰好用,文本比较

    - 文本比较,也称为差异分析或文件差异,是一种技术,用于找出两个文本文件在内容上的异同。这在编程、文档编辑和项目协作中非常常见。 - JSP(Java Server Pages)文本比较器是专门针对JSP文件进行比较的工具,它...

    文本对比器 找出两个文本文件不同的地方

    描述中的"找出两个文本文件不同的地方"进一步强调了这个功能的核心:识别文本文件之间的异同。这通常涉及到逐行或逐字符的比较,以及对插入、删除、替换等操作的标记。 标签 "文本对比" 暗示了这个过程涉及的技术,...

    超好用的文本比较小工具

    它能够帮助用户识别并理解两个文本之间的异同,从而提高工作效率,减少错误。下面将详细阐述这个领域的相关知识。 首先,文本比较的基本原理是通过算法来识别文本间的字符或行级别的差异。这些算法通常基于字符串...

    六级、雅思、托福阅读文本难度对比研究——基于数据挖掘的方法.pdf

    综上所述,该文件涉及了数据挖掘方法在语言测试领域中的应用,详细分析了大学英语六级、雅思和托福阅读文本难度的异同,并探讨了不同的文本特征对于阅读理解试题难度的影响。这项研究为语言测试材料的设计和评估提供...

    文本内容比较

    "普特文本内容比较"工具就是这样一个专门用于对比两个文本文件内容差异的工具,它能帮助用户高效地识别出文件之间的异同,并通过不同颜色进行高亮显示,使得查看和理解差异变得更加直观。 文本内容比较的原理通常是...

    文本比较工具爬虫等比较

    文本比较工具是IT行业中一种非常实用的辅助软件,主要用于检测两个或多个文本文件之间的差异,或者分析抓包数据中的字符串异同。这类工具在代码审查、文档校对、日志分析等多个场景下都能发挥重要作用。在标题“文本...

    文本文件比较神器

    它可以同时对比两个文件夹中的所有文件和子文件夹,找出其中的异同,并且可以进行同步操作,使得文件夹内容保持一致。这对于备份、迁移或者整理文件系统非常有帮助。 在压缩包中提到的“注册码.txt”,很可能是用于...

    多个TXT文本对比工具(将不同的内容输出到新的文本里)

    本案例中提到的“多个TXT文本对比工具”是一个专门针对TXT文本格式的对比工具,其主要功能是帮助用户快速找出不同文本间的异同,并将这些差异保存到一个新的文本文件中。这样的工具在代码审查、文档校对、版本控制等...

    用于两个文本文件之间对比

    文本文件对比软件,可以清晰的表示出两个文件的异同点。

    基于python的文本挖掘应用——以米9用户评论的词频统计为例.pdf

    又如,通过比较经典著作中的词频统计,可以揭示不同作者在教育思想上的异同。此外,通过分析文学作品中的词频,可以对作品中人物性格进行分析。 文本挖掘的应用领域非常广泛,包括但不限于舆情分析、文化研究、心理...

    文本比较器

    在描述中提到的"文本比较器,比较文本的差异",这表明该工具专注于查找文本内容的异同。它可以用于对比两个版本的源代码,查看开发者在新版本中做了哪些修改。在团队协作中,当多人同时编辑同一份文件时,文本比较器...

    文本内容比较工具

    例如,如果你正在对比英文版和法文版的文档,有了这些词典,工具就能准确地找出两种语言文本的对应差异,而不仅仅是基于字符编码的简单比较。 总的来说,"文本内容比较工具"是一种高效、精确的文件对比软件,它通过...

    文本差异比较工具

    文本差异比较工具是一种非常实用的软件,主要用于对比两个或多个文本文件之间的差异,帮助用户找出它们之间的异同。这类工具广泛应用于代码版本控制、文档修订、法律文本比对等多种场景,极大地提高了工作效率和准确...

    概括内容要点,比较材料异同.ppt

    在非连续性文本阅读中,概括内容要点题通常要求考生从多段落、多信息源中提取关键信息,形成对整体内容的理解。解题流程包括理解题意、确定信息范围、检索提炼要点并整合答案。例如,2018年全国卷中的题目询问了...

    对比两张Excel异同

    对于Excel表格,如果你的版本差异涉及到格式或者公式,那么可能需要更复杂的比较方式,如直接在Excel中使用VBA脚本进行对比,但这已经超出了基础的文本对比范围。 总之,通过将Excel表格转换为文本文件,并使用...

    强悍的文件异同比较工具

    标题中的“强悍的文件异同比较工具”暗示了我们讨论的是一个功能强大的专业工具,它能够高效、准确地分析两个或多个文件的相似之处和不同之处。 文件比较工具的核心功能是对比文件内容,查找文本或二进制数据的差异...

Global site tag (gtag.js) - Google Analytics