`
renhongchao
  • 浏览: 121392 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

白话特征选择系列---开篇

 
阅读更多
     孟子:“人之初,性本善”。
      荀子:“人之初,性本恶”。
      你:?
      当我们初次见到一个人的时候,我们往往会根据一个人的外貌来进行一下判定,这个人长的面善,应该是个好人;瞧这个人长的这个样子,一看就不是什么好人。但是如果是一个相貌平平,毫无所知的陌生人,我们多半会回答这个人我不认识,不知道是好人还是坏人,因为这样回答最安全正确。而当他告诉我们名字时,如果我们听过他以前做过好事,那么我们多半会觉得他是好人;反之如果一个人进过监狱,我们一般会认定他是坏人。
      上面介绍的是人的好坏分类,文本分类也是类似情况,只不过被分类的对象变成了文本(文章|书籍等等)。文本分类应用的具体应用方面有很多,比如判断一篇文章是武侠类的还是言情类的,传播的是正能量还是负能量(禁书),需不需要方舟子老师来打假看看是不是找人代笔的。
      人脑相对于电脑来说是很高级的,我们在阅读文章分类的时候有自己的感性认识,结合自己已经掌握的知识进行汇总,然后分类。文章的段落安排,上下文信息对于人的文本分类都是很重要的。但是人对文本的这种感性认识,如何让计算机理解目前还是一个难题。我们需要找到一种方法来让计算机能够理解和表示文本。
        把文本表示成计算机可以理解的形式,就是文本表示。目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空间模型(VSM)。向量空间模型的基本思想是把文档简化为特征项的权重为分量的向量表示,权重用词频表示.词频分为绝对词频和相对词频.绝对词频,即用词在文本中出现的频率表示文本;相对词频,即为归一化的词频,其计算方法主要运用TF-IDF公式。
       由于文本数据的半结构化甚至于无结构化的特点,当用特征向量对文档进行表示的时候,特征向量通常会达到几万维甚至于几十万维.但是大家想一下,大部分文章仅仅千余字,包含的词至多几百,为了表示这样一个文本,却要使用上万维的向量,这是对存储资源和计算能力很大的浪费。所以寻求一种有效的特征降维方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中至关重要的问题。
       下面我就几种特征选择方法进行介绍。
分享到:
评论

相关推荐

    白话中台战略-中台是个什么鬼.pdf

    白话中台战略-中台是个什么鬼.pdf白话中台战略-中台是个什么鬼.pdf白话中台战略-中台是个什么鬼.pdf白话中台战略-中台是个什么鬼.pdf白话中台战略-中台是个什么鬼.pdf白话中台战略-中台是个什么鬼.pdf白话中台战略-...

    白话中台战略-中台到底长啥样.docx

    白话中台战略-中台到底长啥样.docx白话中台战略-中台到底长啥样.docx白话中台战略-中台到底长啥样.docx白话中台战略-中台到底长啥样.docx白话中台战略-中台到底长啥样.docx白话中台战略-中台到底长啥样.docx白话中台...

    白话数字签名------整理版

    ### 数字签名技术详解 #### 一、引言 随着信息技术的发展,网络安全变得越来越重要。在众多保障信息安全的技术中,数字签名技术因其独特的安全性而备受关注。数字签名不仅能够确保数据的完整性和真实性,还能实现...

    【免费】经典C++编程白话讲述(1-23全)

    【免费】经典C++编程白话讲述(1-23全)是一本面向对计算机编程感兴趣的初学者的书籍,旨在从基础知识开始,讲解C++语言的精髓。书中的内容覆盖了从硬件、软件、程序的概念,到计算机语言的演变,以及C++语言的实现...

    白话JDK配置文档--含图

    在安装过程中,注意选择合适的安装路径,避免安装到系统盘以减少硬盘占用。 安装完成后,我们需要配置环境变量。环境变量是用来告诉操作系统如何找到JDK的相关组件。主要涉及两个环境变量:`JAVA_HOME`和`Path`。 ...

    白话图解HTTPS原理-图解https

    ### 白话图解HTTPS原理 #### HTTPS的重要性与背景 随着互联网技术的不断发展,网络安全性逐渐成为人们关注的焦点。为了保障数据传输的安全性,HTTPS(超文本传输安全协议)应运而生,并逐渐受到越来越多业内人士的...

    白话中台战略-中台到底长啥样 (2).pdf

    中台战略是近年来互联网行业中备受关注的架构模式,旨在提升企业的灵活性、响应能力和创新能力。阿里巴巴的数据业务双中台是这一概念的典型代表,它由业务中台和数据中台组成,共同支持前台业务的快速发展。...

    白话机器学习的数学-立石贤吾-源代码.zip

    白话机器学习的数学-立石贤吾-源代码.zip

    白话C++--让你更容易学懂C++

    1.1 硬件、软件、程序 1.2 计算机语言 1.3 语言和实现语言的工具  1.3.1 机器语言  1.3.2 汇编语言  1.3.3 高级语言  1.3.4 语言实现工具  1.3.4.1 C++ Builder的基本功能  1.3.4.2 VCL vs....

    白话经典算法系列之六 快速排序 快速搞定 - MoreWindows - 博客园1

    1. 选择数组中的一个元素作为基准数。 2. 从数组的两端开始,左侧的指针`i`向右移动,寻找大于基准数的元素;右侧的指针`j`向左移动,寻找小于或等于基准数的元素。 3. 当`i`小于`j`时,交换`i`和`j`指向的元素,...

    ThoughtWorks林帆-白话Kubernetes网络

    《ThoughtWorks林帆-白话Kubernetes网络》深入浅出地探讨了Kubernetes(简称K8s)在容器网络领域的核心概念与实践。Kubernetes作为目前最流行的容器编排平台,其网络模型对于理解并有效利用这个平台至关重要。在...

    量子现实 -- 白话量子力学

    量子力学已通过全面、严谨的实验验证,但应该如何诠释这些实验结果,从此又可对大自然的根本运作方式得出如何的结论,众说纷纭。林林总总的理解方式,统称为量子力学诠释。诸多学派的争议点包括,量子力学可否理解为...

    白话Python-新手必备指南

    白话Python——新手必备指南,目标是:一套“课程”让你学会怎么玩Python。

    白话CMMI dev 2.0

    #### CMMI Dev 2.0的关键特征 1. **实践域(Practice Areas, PA)**:CMMI Dev 2.0通过一系列的实践域来定义和组织过程改进的活动。每个实践域都包含了一系列的实践,这些实践可以帮助组织达到特定的目标。例如,...

    白话算法(理论联系实际)-初探遗传算法接近完美

    《白话算法(理论联系实际)-初探遗传算法接近完美》是针对计算机科学中的优化算法——遗传算法的一次深入浅出的探讨。遗传算法是一种模拟自然选择和遗传机制的搜索算法,它以其独特的非确定性、全局搜索能力和适应性...

    免费下载 白话遥感图像分类技术

    ### 免费下载白话遥感图像分类技术 #### 背景介绍 遥感技术是一种重要的地理信息获取手段,广泛应用于环境监测、资源管理、灾害评估等多个领域。随着技术的发展,遥感图像分类作为遥感应用的核心环节之一,越来越...

    白话REST-识别真假REST

    REST(Representational State Transfer),即“表征...总结来说,REST是一种架构风格,它定义了一系列的约束条件,使得系统能够更好地适应Web的特性和环境。理解并正确应用这些约束条件是构建RESTful服务的关键所在。

    子平真诠白话解释.doc

    《子平真诠白话解释》是一部对古代命理学经典著作《子平真诠》的现代解读作品,它将古典文言文译为现代白话文,旨在为现代读者提供更加通俗易懂的阅读体验。《子平真诠》由古代著名命理学者所著,对后世影响深远。...

    白话C++ word版

    ### 白话C++ 关键知识点解析 #### 1. 计算机基本概念:硬件与软件 **硬件**:指的是计算机系统中的物理组件,包括中央处理器(CPU)、内存(RAM)、硬盘驱动器(HDD)、输入输出设备(如键盘、鼠标、显示器)等。...

Global site tag (gtag.js) - Google Analytics