`
lzj0470
  • 浏览: 1264365 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

文本分类入门(三)统计学习方法

阅读更多

前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以另写一系列文章来说了),更不要说让计算机来理解。

  利用计算机来解决问题的标准思路应该是:为这种问题寻找一种计算机可以理解的表示方法,或曰建立一个模型(一个文档表示模型);然后基于这个模型,选择各方面满足要求的算法来解决。用谭浩强的话说,程序,就是数据+算法。(啥?你不知道谭浩强是谁?上过学么?学过C么?这捣什么乱?)

  既然文本的语义和语用信息很难转换成计算机能够理解的表示形式,接下来顺理成章的,人们开始用文章中所包含的较低级别的词汇信息来表示文档,一试之下,效果居然还不错。

  统计学习方法进行文本分类(以下就简称为“统计学习方法”,虽然这个方法也可以应用到除文本分类以外的多个领域)的一个重要前提由此产生,那就是认为:文档的内容与其中所包含的词有着必然的联系,同一类文档之间总存在多个共同的词,而不同类的文档所包含的词之间差异很大[1]。

  进一步的,不光是包含哪些词很重要,这些词出现的次数对分类也很重要。

  这一前提使得向量模型(俗称的VSM,向量空间模型)成了适合文本分类问题的文档表示模型。在这种模型中,一篇文章被看作特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。[5]

  而实际上,文本是一种信息载体,其所携带的信息由几部分组成:如组成元素本身的信息(词的信息)、组成元素之间顺序关系带来的信息以及上下文信息(更严格的说,还包括阅读者本身的背景和理解)[12]。

  而VSM这种文档表示模型,基本上完全忽略了除词的信息以外所有的部分,这使得它能表达的信息量存在上限[12],也直接导致了基于这种模型构建的文本分类系统(虽然这是目前绝对主流的做法),几乎永远也不可能达到人类的分类能力。后面我们也会谈到,相比于所谓的分类算法,对特征的选择,也就是使用哪些特征来代表一篇文档,往往更能影响分类的效果。

  对于扩充文档表示模型所包含的信息量,人们也做过有益的尝试,例如被称为LSI(Latent Semantic Index潜在语义索引)的方法,就被实验证明保留了一定的语义信息(之所以说被实验证明了,是因为人们还无法在形式上严格地证明它确实保留了语义信息,而且这种语义信息并非以人可以理解的方式被保留下来),此为后话。

  前文说到(就不能不用这种老旧的说法?换换新的,比如Previously on "Prison Break",噢,不对,是Previously on Text Categorizaiton……)统计学习方法其实就是一个两阶段的解决方案,(1)训练阶段,由计算机来总结分类的规则;(2)分类阶段,给计算机一些它从来没见过的文档,让它分类(分不对就打屁屁)。

分享到:
评论

相关推荐

    文本分类入门.pdf

    ### 文本分类入门知识点详解 #### 一、文本分类问题定义及应用范围 文本分类,作为自然语言处理(NLP)的重要组成部分,旨在通过计算机自动分析文档内容,并将其归类到预定义的类别中。这一过程涉及理解文本的语义...

    统计学习方法_超清版(李航)

    《统计学习方法》是李航博士的一本经典著作,它深入浅出地介绍了机器学习领域中的统计学习理论和方法。这本书对于理解并掌握各种机器学习算法具有极高的价值,不仅适合初学者,也对资深从业者提供了宝贵的参考资料。...

    基于weka的文本分类器

    本项目是基于Weka实现的文本分类器,旨在帮助初学者快速入门并理解文本分类的工作流程。 **1. 文本分类** 文本分类的核心在于如何将文本数据转化为可被机器学习算法处理的形式。这通常包括以下步骤: - **预处理*...

    NLP小白入门——超全中文文本分类系统(含训练及测试数据集)

    本资源“NLP小白入门——超全中文文本分类系统”旨在为初学者提供一个全面的入门教程,包括训练集、测试集以及相关工具和技术,如停用词、word2vec和TF-IDF等。下面我们将详细讨论这些知识点。 1. **文本分类**:这...

    文本分类中的特征提取方法研究及分类实现

    本文将探讨文本分类中的特征提取方法及其分类实现,旨在为初学者提供一个全面的入门指南,并深入讨论当前流行的算法和技术。 #### 二、文本分类概述 文本分类是指将文档自动分配到预定义的类别中的一项技术。它...

    李航统计学习方法

    《李航统计学习方法》是一本深度探讨机器学习领域的经典著作,由李航教授撰写,主要涵盖了支持向量机(SVM)、Boosting、最大熵模型(MaxEnt)以及条件随机场(CRF)等十种重要的统计学习方法。这些方法在现代数据...

    支持向量分类机原理入门学习教案.pptx

    支持向量分类机(SVM)是一种基于统计学习理论的机器学习方法,由Boser、Guyon、Vapnik在COLT-92上首次提出。SVM的思想是通过某种事先选择的非线性映射(核函数)将输入向量映射到一个高维特征空间,在这个空间中...

    文本分类论文(2),知网上下的。

    首先,《文本分类入门.docx》可能为初学者提供了基础知识,包括文本预处理(如分词、去除停用词)、特征提取(如词袋模型、TF-IDF)以及基本的分类算法(如朴素贝叶斯)。文本分类通常涉及将文本表示为数值向量,...

    机器学习领域,李航-统计学习电子书

    《统计学习方法》是机器学习领域的一本经典著作,作者李航以其深入浅出的讲解方式,为读者揭示了机器学习的核心理论与实践技巧。这本书是许多数据科学家、机器学习工程师以及人工智能研究者的必备参考书。 该书主要...

    SPSS统计分析软件入门教程学习教案.pptx

    《SPSS统计分析软件入门教程学习教案》是一个针对初学者设计的教学材料,旨在引导学习者掌握如何使用SPSS(Statistical Package for the Social Sciences)这一专业统计分析软件。SPSS广泛应用于社会科学、医学研究...

    NLP自然语言处理-零基础入门NLP-文本分类实验(word2vec、词袋模型、scikit-learn构造词向量、TFIDF)

    入门: 实例_基于word2vec词向量分类 实例_基于词袋模型分类 使用Gensim生成词嵌入 进阶: IMDB_LSTM+X 4种文本...scikit-learn构造词向量的三种方法 实例_文本分类的多通道CNN模型 TfidfVectorizer统计词频(TF-IDF)

    机器学习理论到实践-统计概率模型-小白入门解析

    朴素贝叶斯非常适合文本分类问题,尤其是垃圾邮件的识别。通过将文本数据进行向量化(比如使用One-hot编码),我们可以计算一封邮件是垃圾邮件的概率,依据的是一系列单词同时出现的概率。朴素贝叶斯模型的参数包括...

    统计学习基础+数据挖掘、推理与预测

    《统计学习基础+数据挖掘、推理与预测》是一本涵盖了统计学习、数据挖掘以及推理预测等核心领域的书籍,对于想要入门或进阶机器学习的读者来说,无疑是一本宝贵的资源。书中深入浅出地介绍了这些关键概念和技术,...

    SVM入门,机器学习经典

    SVM的核心思想源于统计学习理论中的VC维理论和结构风险最小化原则,旨在平衡模型复杂性和学习能力,以获得最佳的泛化性能。 #### 统计学习理论基础:VC维与结构风险最小化 - **VC维**:VC维是一种用于衡量问题...

    AI入门学习资料包.zip

    《AI入门学习资料包》是一份专为初学者设计的综合资源集合,旨在帮助零基础的人群快速理解和掌握人工智能(AI)的基本概念和技术。这份压缩包涵盖了从理论基础到实践应用的多方面内容,旨在搭建一个全面的学习路径,...

    nlp_tutorial:NLP超强入门指南,包括各任务sota模型汇总(文本分类,文本匹配,序列标注,文本生成,语言模型),以及代码,技巧

    NLP学习指南 本教程致力于帮助同学们快速入门NLP,并掌握各个任务的SOTA模型。...统计机器学习部分,建议初学者先看懂线性分类,SVM,树模型和图模型,这里推荐李航的“统计学习方法”,薄的摸起来没有

    LIBSVM 超级详细入门经典

    SVM 方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的。VC 维是一种度量函数类的复杂程度,可以简单地理解为问题的复杂程度。SVM 解决问题的时候,并不关心样本的维数(甚至样本是上万维的都可以)...

Global site tag (gtag.js) - Google Analytics