`
carus
  • 浏览: 29930 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

(三)统计学习方法zz

 
阅读更多

前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以另写一系列文章来说了),更不要说让计算机来理解。

  利用计算机来解决问题的标准思路应该是:为这种问题寻找一种计算机可以理解的表示方法,或曰建立一个模型(一个文档表示模型);然后基于这个模型,选择各方面满足要求的算法来解决。用谭浩强的话说,程序,就是数据+算法。(啥?你不知道谭浩强是谁?上过学么?学过C么?这捣什么乱?)

  既然文本的语义和语用信息很难转换成计算机能够理解的表示形式,接下来顺理成章的,人们开始用文章中所包含的较低级别的词汇信息来表示文档,一试之下,效果居然还不错。

  统计学习方法进行文本分类(以下就简称为“统计学习方法”,虽然这个方法也可以应用到除文本分类以外的多个领域)的一个重要前提由此产生,那就是认为:文档的内容与其中所包含的词有着必然的联系,同一类文档之间总存在多个共同的词,而不同类的文档所包含的词之间差异很大[1]。

  进一步的,不光是包含哪些词很重要,这些词出现的次数对分类也很重要。

  这一前提使得向量模型(俗称的VSM,向量空间模型)成了适合文本分类问题的文档表示模型。在这种模型中,一篇文章被看作特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。[5]

  而实际上,文本是一种信息载体,其所携带的信息由几部分组成:如组成元素本身的信息(词的信息)、组成元素之间顺序关系带来的信息以及上下文信息(更严格的说,还包括阅读者本身的背景和理解)[12]。

  而VSM这种文档表示模型,基本上完全忽略了除词的信息以外所有的部分,这使得它能表达的信息量存在上限[12],也直接导致了基于这种模型构建的文本分类系统(虽然这是目前绝对主流的做法),几乎永远也不可能达到人类的分类能力。后面我们也会谈到,相比于所谓的分类算法,对特征的选择,也就是使用哪些特征来代表一篇文档,往往更能影响分类的效果。

  对于扩充文档表示模型所包含的信息量,人们也做过有益的尝试,例如被称为LSI(Latent Semantic Index潜在语义索引)的方法,就被实验证明保留了一定的语义信息(之所以说被实验证明了,是因为人们还无法在形式上严格地证明它确实保留了语义信息,而且这种语义信息并非以人可以理解的方式被保留下来),此为后话。

  前文说到(就不能不用这种老旧的说法?换换新的,比如Previously on "Prison Break",噢,不对,是Previously on Text Categorizaiton……)统计学习方法其实就是一个两阶段的解决方案,(1)训练阶段,由计算机来总结分类的规则;(2)分类阶段,给计算机一些它从来没见过的文档,让它分类(分不对就打屁屁)。

 

分享到:
评论

相关推荐

    神经网络与深度学习python源码统计学习方法概论

    神经网络与深度学习神经网络与深度学习python源码统计学习方法概论提取方式是百度网盘分享地址

    ZZ超级画板教程.pdf

    使用 ZZ 超级画板需要了解这些功能的使用方法和技巧,并且需要一定的学习和实践。但是,ZZ 超级画板提供了方便的帮助系统,用户可以随时按 F1 键来获取帮助。 在安装 ZZ 超级画板之前,需要了解硬件要求,例如最低...

    统计多个文本长度

    Python的`open()`函数可以用来打开文件,然后通过`read()`或`readlines()`方法读取文本。对于大文件,可能需要使用`readline()`或分块读取以避免内存溢出。 3. **文本长度计算**:读取到文本内容后,计算文本长度...

    精典源码之zz-doctor中医大夫助理信息系统(简化版).rar

    《zz-doctor中医大夫助理信息系统》是一款专为中医大夫设计的辅助管理软件,旨在提高中医诊疗的效率和准确性。此简化版源码提供了一个学习和参考的平台,帮助开发者理解和构建类似的医疗信息系统。 该系统的核心...

    GIZA++运行报告zz

    GIZA++是一款著名的统计机器翻译工具,主要用于学习双语词汇对齐模型。这款工具是基于IBM模型1-4和HMM(隐马尔可夫模型)的扩展,由Alexandra Birch和Mila Nikolova等人在2004年开发。在机器翻译领域,词汇对齐是将...

    ★CAD中统计多条线段长度.doc

    (princ "\n程序:统计线段长度\n命令:zz") (defun C:zz (/ CURVE TLEN SS N SUMLEN) (vl-load-com) (setq SUMLEN 0) (setq SS (ssget '(0 ".CIRCLE,ELLIPSE,LINE,POLYLINE,SPLINE,ARC"))) (setq N 0) (repeat ...

    神经网络与深度学习python源码提升方法

    ### 神经网络与深度学习Python源码提升方法 #### 神经网络与深度学习简介 神经网络与深度学习是当前人工智能领域最炙手可热的技术之一,它们为解决复杂的模式识别、图像处理、自然语言处理等问题提供了强大的工具...

    ZZ MTF XO A - MetaTrader 4脚本.zip

    **MetaTrader 4平台及其脚本编程** MetaTrader 4(MT4)是全球金融市场广泛使用的交易平台,...通过学习MQL4编程,交易者不仅可以自定义此指标,还能开发更多符合自己交易风格的工具,从而提升交易效率和盈利能力。

    模型算法模型课件讲义含代码数据的统计处理

    根据提供的文件信息,我们可以推断出这是一份关于模型算法的教学资料,主要涉及了模型算法的基本概念、统计处理方法以及相关的编程实现等内容。下面将基于这些信息,详细展开相关知识点。 ### 模型算法基本概念 ...

    流程管理基础知识zz.pptx

    - 六西格玛(Six Sigma):通过统计方法减少流程中的变异和缺陷。 - 精益生产(Lean Production):消除浪费,提高效率。 - 敏捷管理(Agile Management):灵活应对市场变化,提高组织的响应速度。 #### 四、流程关键...

    模型算法统计分析文档含代码

    模型算法是指使用数学模型和计算方法来解决特定问题的一套规则和步骤,它们在数据挖掘、机器学习等领域中具有重要地位。统计分析则是指运用统计学原理和方法对数据进行整理、分析、解释和预测的过程。 模型算法统计...

    完整word版-★CAD中统计多条线段长度.doc

    对于经常需要进行类似计算的CAD用户来说,学习和应用此类自定义脚本可以显著提升工作效率。同时,这也体现了LISP作为AutoCAD编程语言的强大之处,它可以定制各种复杂的工作流程,满足用户的个性化需求。

    数学建模Python概率论与数理统计程序及数据

    这些资料可能包括但不限于教学视频、源代码示例、练习题目以及数据集等资源,有助于学习者深入了解并实践概率论与数理统计在 Python 中的应用。 总之,通过对数学建模、Python 编程语言以及概率论与数理统计等相关...

    数学建模教程MATLAB统计分析与应用40个案例分析附带程序与数据

    附带的程序和数据能够指导读者如何设置问题,选择合适的统计方法,编写MATLAB代码来实现数据分析,并对结果进行解释。这不仅可以加深对数学建模的理解,而且通过实际操作,读者可以熟练掌握MATLAB在数学建模中的应用...

    模型算法数据的统计处理文档含代码

    从给出的文件信息来看,该文档是关于模型算法和数据统计处理的,且文档中包含了...在实际使用文档时,首先应当确认分享链接的正确性,并根据文档的具体内容来进一步详细学习和掌握模型算法以及数据统计处理的具体方法。

    数学建模模型算法数据的统计处理

    通过这样的链接,研究者和学生可以获取到相应的数学建模学习材料和辅助工具,从而更有效地进行模型算法的开发和数据的统计处理。 在统计处理与数学建模的实践中,算法的创新和应用是推动模型精确性和高效性的关键。...

    模型算法模型课件讲义含代码统计分析

    - **基本概念**:统计分析是通过对数据进行数学处理来揭示其内在规律的方法。主要包括描述性统计分析、推断性统计分析等。 - **常用技术**: - **描述性统计**:用于总结数据的基本特征,如均值、标准差等。 - **...

Global site tag (gtag.js) - Google Analytics