`
lzj0470
  • 浏览: 1277045 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

文本分类入门(七)相关概念总结

阅读更多

学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。

  监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。

  非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子是聚类,类别的数量,名称,事先全都没有确定,由计算机自己观察样例来总结得出。

  TSR(Term Space Reduction):特征空间的压缩,即降维,也可以叫做特征提取。包括特征选择和特征抽取两大类方法。

  分类状态得分(CSV,Categorization Status Value):用于描述将文档归于某个类别下有多大的可信度。

  准确率(Precision):在所有被判断为正确的文档中,有多大比例是确实正确的。

  召回率(Recall):在所有确实正确的文档中,有多大比例被我们判为正确。

  假设:计算机对训练集背后的真实模型(真实的分类规则)的猜测称为假设。可以把真实的分类规则想像为一个目标函数,我们的假设则是另一个函数,假设函数在所有的训练数据上都得出与真实函数相同(或足够接近)的结果。

  泛化性:一个假设能够正确分类训练集之外数据(即新的,未知的数据)的能力称为该假设的泛化性[22]。

  一致假设:一个假设能够对所有训练数据正确分类,则称这个假设是一致的[22]。

  过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合[22]。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别!

  超平面(Hyper Plane):n维空间中的线性函数唯一确定了一个超平面。一些较直观的例子,在二维空间中,一条直线就是一个超平面;在三维空间中,一个平面就是一个超平面。

  线性可分和不可分:如果存在一个超平面能够正确分类训练数据,并且这个程序保证收敛,这种情况称为线形可分。如果这样的超平面不存在,则称数据是线性不可分的[22]。

  正样本和负样本:对某个类别来说,属于这个类别的样本文档称为正样本;不属于这个类别的文档称为负样本。

  规划:对于目标函数,等式或不等式约束都是线性函数的问题称为线性规划问题。对于目标函数是二次的,而约束都是线性函数的最优化问题称为二次规划问题[22]。

  对偶问题:

  给定一个带约束的优化问题

  目标函数:min f(x)

  约束条件:C(x) ≥0

  可以通过拉格朗日乘子构造拉格朗日函数

  L(x,λ)=f(x)- λTC(x)

  令g(λ)= f(x)- λTC(x)

  则原问题可以转化为

  目标函数:max g(λ)

  约束条件:λ≥0

  这个新的优化问题就称为原问题的对偶问题(两个问题在取得最优解时达到的条件相同)。

分享到:
评论

相关推荐

    基于LSTM神经网络的电网文本分类方法.pdf

    《基于LSTM神经网络的电网...总结起来,该文章揭示了LSTM神经网络在电网文本分类中的应用潜力,强调了深度学习在解决复杂文本处理问题上的优势,并为电力行业提供了一种有效的信息管理工具,促进了电网系统效率的提升。

    Lucene2.4入门总结

    本文将重点介绍 Lucene 2.4 版本的基本概念和使用方法,帮助初学者快速入门。 ### 一、Lucene 概述 1. **核心概念**:Lucene 的主要组件包括索引(Index)、文档(Document)、字段(Field)和查询(Query)。索引...

    HTML+CSS的入门知识点总结

    HTML+CSS入门知识点总结 ...本文将总结HTML+CSS的入门知识点,涵盖HTML的基本结构、CSS的引入方式、选择...通过对HTML+CSS的入门知识点的总结,我们可以更好地理解HTML和CSS的基本概念和应用,从而更好地设计和开发网页。

    HanLP作者的新书《语言自然处理入门》详细笔记!书籍良心之作,书籍不是枯燥无味的公式罗列,而是用白话阐述的通俗易懂的算法模型 从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽.zip

    从基本概念出发,逐步介绍中文分词、词性标记、命名实体识别、信息抽取、文本语义、文本分类、句法分析这几个热门问题的算法原理与工程实现。本项目旨在帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,...

    七年级信息技术总结.pdf

    考虑到文件内容无法正常解读,我将基于“七年级信息技术总结”这一主题,介绍一些可能包含在文档中的知识点和概念。这些知识点涉及信息技术的基础概念、课程教学内容、软件应用等。 知识点一:信息技术基础 信息...

    Introduction-NLP:HanLP作者的新书《自然语言处理入门》详细笔记!业界良心之作,书中不是枯燥无味的公式罗列,甚至用白话分解的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现

    从基本概念出发,逐步介绍中文分词,词性标注,命名实体识别,信息删除,文本聚类,文本分类,句法分析这几个热门问题的算法原理与工程实现。本项目初步帮助更多同路人能够快速的掌握NLP的专业知识,理清知识要点,...

    零基础入门C语言-王桂林 -v2-.pdf

    作者还提供了有关vim文本编辑器的详细使用教程,这是Linux环境下一个强大的文本编辑工具。内容包括vim的状态模式、启动退出方法、文件操作、光标移动操作、编辑操作、查找替换操作,以及如何使用vimtutor学习工具和...

    Keras深度学习入门与实战课程

    课程中可能涵盖的实际项目可能包括图像分类(如MNIST手写数字识别)、文本分类(如情感分析)、推荐系统等。这些项目将帮助你巩固理论知识,理解如何将Keras应用于实际问题。 五、数据预处理 在深度学习中,数据...

    贝叶斯分类算法的JAVA实现

    贝叶斯定理是概率论中的一个关键概念,它描述了在已知某些条件的情况下,一个事件发生的概率如何被其他相关事件的概率影响。公式为: P(A|B) = [P(B|A) * P(A)] / P(B) 其中,P(A|B) 表示在已知B发生的条件下,...

    支持向量机入门讲义(Support Vector Machine,SVM)

    ### 支持向量机(Support Vector Machine, SVM)入门讲义 #### 一、引言 支持向量机(SVM)是一种广泛应用于模式识别和数据分类的强大算法。本讲义旨在通过透彻分析SVM的基本原理,帮助读者理解其背后的逻辑与应用场景...

    SVM入门资料(英文)

    标签部分简明扼要地总结了文档的核心内容——SVM的入门知识、支持向量机的概念以及与之相关的基础知识。 #### 部分内容解析: 文档的部分内容主要涉及SVM的基本原理及其数学表达,但由于内容为乱码,无法直接翻译...

    《数据竞赛入门讲义》.pdf

    常见的NLP任务包括文本分类和文本信息抽取等。 #### 9.4 NLP类型比赛 NLP类型比赛如阿里云安全算法挑战赛等,为选手提供了展示NLP技术能力的平台。 ### 10. 其他相关任务 #### 10.1 深度自编码器 深度自编码器是...

    Visual Basic2013从入门到精通

    ### Visual Basic 2013 从入门到精通 #### 一、Visual Basic 2013 概述 Visual Basic 2013(简称VB 2013)是Microsoft公司推出的一种面向对象的高级编程语言。它基于.NET Framework,支持Windows Forms应用程序、...

    oracle从入门到精通.pdf

    ### Oracle从入门到精通知识点概览 ...以上是对《Oracle从入门到精通》一书的部分内容进行的知识点提取和总结,涵盖了SQL基础、数据库管理等多个方面,旨在帮助读者全面了解Oracle数据库的相关知识和技术要点。

    html资源总结,适合初级人员入门学习

    ### HTML资源总结——适合初级人员入门学习 #### 一、HTML简介 HTML,全称HyperText Markup Language(超文本标记语言),是一种标准的通用标记语言下的应用,用于创建和呈现网页内容。它允许用户通过一系列预定义...

    C语言从放弃到入门

    ### C语言从放弃到入门——核心知识点概览 #### 一、Hello World示例与程序构建 - **Hello World程序**...以上内容是《C语言从放弃到入门》教案的核心知识点总结,旨在帮助读者系统地掌握C语言的基础知识和编程技巧。

    支持向量机入门

    SVM特别之处在于,它关注的是VC维而非具体的样本维度,这意味着即使面对非常高维的数据(例如文本分类问题中常见的上万维特征空间),SVM依然能够有效地工作。这一点通过引入核函数技术得以实现,使得SVM能够在非...

    SVM入门.pdf

    - **文本分类**: 由于文本通常具有高维稀疏特征,SVM在文本分类任务中表现优秀。 - **图像识别**: SVM能够有效处理图像中的复杂模式,适用于手写数字识别、人脸识别等任务。 - **生物信息学**: 在基因表达数据分析、...

    VC++6.0简易快速入门

    本文详细介绍了VC++6.0中涉及的基础知识和技术要点,包括Windows API的基本概念、常用的数据类型、句柄类型、消息处理机制、MFC框架下的常见类和函数,以及面向对象编程中的构造函数、析构函数和虚函数等重要概念。...

Global site tag (gtag.js) - Google Analytics