`
carus
  • 浏览: 29467 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

(一)文本分类问题的定义zz

 
阅读更多

一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。

  注意这个定义当中着重强调的两个事实。

  第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,Yahoo!网页导航的分类层次。这种分类层次一旦确定,在相当长的时间内都是不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一个分类系统)。

  第二,一篇文档并没有严格规定只能被分配给一个类别。这与分类这个问题的主观性有关,例如找10个人判断一篇文章所陈述的主题究竟属于金融,银行还是财政政策领域,10个人可能会给出11个不同的答案(聪明的读者,您应该能看出来并没有11个答案,这只是一种修辞方法,笑),因此一篇文章很可能被分配到多个类别当中,只不过分给某些类别让人信服,而有些让人感觉模棱两可罢了(说的专业点,置信度不一样)。

  八股是一种写文章的格式,过去用于科举,现在用于科研,总之,和科学有点关系的文章就得八股,鉴于我正锻炼自己写论文的能力,所以按照标准的格式,陈述了文本分类问题的定义之后,我要说说它的应用范围。

  现在一说到文本分类,大部分人想当然的将这个问题简化为判断一篇文章说的是什么,这只是文本分类的一小部分应用,我们可以称之为“依据主题的分类”。实际上,文本分类还可以用于判断文章的写作风格,作者态度(积极?消极?),甚至判断作者真伪(例如看看《红楼梦》最后二十回到底是不是曹雪芹写的)。总而言之,凡是与文本有关,与分类有关,不管从什么角度出发,依据的是何特征,都可以叫做文本分类。

  当然,目前真正大量使用文本分类技术的,仍是依据文章主题的分类,而据此构建最多的系统,当属搜索引擎。内里的原因当然不言自明,我只是想给大家提个醒,文本分类还不完全等同于网页分类。网页所包含的信息远比含于其中的文字(文本)信息多得多,对一个网页的分类,除了考虑文本内容的分类以外,链入链出的链接信息,页面文件本身的元数据,甚至是包含此网页的网站结构和主题,都能给分类提供莫大的帮助(比如新浪体育专栏里的网页毫无疑问都是关于体育的),因此说文本分类实际上是网页分类的一个子集也毫不为过。当然,纯粹的文本分类系统与网页分类也不是一点区别都没有。文本分类有个重要前提:即只能根据文章的文字内容进行分类,而不应借助诸如文件的编码格式,文章作者,发布日期等信息。而这些信息对网页来说常常是可用的,有时起到的作用还很巨大!因此纯粹的文本分类系统要想达到相当的分类效果,必须在本身的理论基础和技术含量上下功夫。

  除了搜索引擎,诸如数字图书馆,档案管理等等要和海量文字信息打交道的系统,都用得上文本分类。另外,我的硕士论文也用得上(笑)。

  下一章和大家侃侃与文本分类有关的具体方法概览,有事您说话。

 

分享到:
评论

相关推荐

    利用递归卷积神经网络进行文本分类可用于专题演讲PPT

    文本分类是一项常见的自然语言处理任务,旨在根据文本内容将其分配到预定义的类别中。为了完成这一任务,首先需要对文本进行有效的特征表示。 - **词袋模型**(Bag-of-Words, BoW): 这是最基础的文本表示方法之一,...

    自然语言处理NLPPytorchBert-TextCNN新闻文本分类源码和视频1G

    新闻文本分类是指根据新闻的内容将其归类到预先定义好的类别中的一项任务。这项任务对于个性化推荐、舆情分析等领域非常重要。使用BERT-TextCNN模型进行新闻文本分类可以实现较高的准确率。在这个项目中,提供的源...

    zz.FindStr.rar_搜索_搜索文件_文件搜索_文本搜索_查找文件

    【标题】"zz.FindStr.rar" 是一个压缩包文件,主要功能是提供一个文本查找工具。这个工具能够帮助用户在指定的根目录及其所有子目录下进行文件搜索,特别是针对包含特定文本的文件进行高效定位。 【描述】该工具的...

    文本编辑器Vim 文本编辑器Vim

    ### 文本编辑器Vim详解 #### 一、引言 Vim(Vi Improved)是一款...综上所述,Vim不仅是一款强大的文本编辑器,还是提高文本编辑效率的重要工具之一。通过深入学习Vim的各种功能和技巧,可以大大提高日常工作的效率。

    ZZ超级画板教程.pdf

    ZZ超级画板教程.pdf 是一个功能强大且实用的绘图软件教程,旨在帮助用户快速掌握 ZZ 超级画板的使用方法和技巧。该教程涵盖了 ZZ 超级画板的主要特点和功能,包括: 1. 学科工具整合:ZZ 超级画板将不同的学科工具...

    zz.rar_visual c

    例如,"zz.cpp"可能是我们的主要源文件,包含主函数main()和其他函数定义。 4. **链接资源**:"www.pudn.com.txt"如果包含资源信息,我们需要在程序中引用并处理这些资源。例如,可以使用#include指令将文本文件...

    xxyyzz77ww.zip_WW2.ww77_com77WW

    在面向对象编程中,类是对象的蓝图,它定义了一组属性(数据成员)和行为(成员函数),这些共同构成了类的特征。例如,在Python中,我们可以这样定义一个类: ```python class BaseClass: def __init__(self, ...

    android应用源码zz-doctor中医大夫助理信息系统源码.zip

    例如,`activity_main.xml`可能定义了主活动的布局,包含了按钮、文本视图、图像视图等组件。 2. **Java或Kotlin类**:源码中的`.java`或`.kt`文件是程序的逻辑部分。在这里,开发者定义了活动(Activity)、服务...

    py源码实例Python文本数据可视化之“词云”图

    # 定义文本 text = "这是一段示例文本,用于生成词云图。这个词云图将展示不同词汇的频率分布。" # 生成词云图 wc = WordCloud(width=800, height=400, background_color='white').generate(text) # 显示...

    C程序模拟3转子的恩格玛机

    程序中的“zz_1.d=0”、“zz_2.d=0”、“zz_3.d=0”是设置转子的初始位置为0,表示它们没有经过任何旋转,从一个明确的状态开始。转子的其他配线细节,尽管由于错误未能全部展示,但在一个完整程序中,它们应该会...

    LGPLC例程源码6头半自动灌装机EV文本与LGPLC实例程序

    EV文本是一种特定的文本格式,通常用于存储配置文件或脚本程序。在本例中,EV文本很可能是指用于LGPLC编程的一种特定格式或约定。通过EV文本,可以更加方便地编写和管理LGPLC的控制逻辑,从而实现对半自动灌装机的...

    dot绘图语言指导(ZZ)

    }`来定义一个有向图,其中`G`是图的名字。 - 使用`graph G { ... }`来定义一个无向图。 2. **创建节点和边**: - 节点可以通过直接指定的方式创建,例如`main[shape=box]`。 - 边通过指向操作符`->`(有向图)...

    [c、c++]宏中#和##的用法(zz).docx

    在C/C++编程语言中,宏是一种预处理器功能,用于在编译时替换文本。宏中的`#`和`##`运算符具有特殊的用途,它们在处理宏参数时起到关键作用。 `#`运算符被称为“字符串化”运算符。当`#`前面是一个未展开的宏参数时...

    VI&VIM常用命令及快捷键.pdf

    由于提供的文件内容为OCR扫描后的文本,存在一定的文字错误和不通顺的问题,但可以从中提取出一些有关VI和VIM编辑器的命令和快捷键信息,并将其转换成知识点。 VI和VIM是广泛使用在类Unix系统中的文本编辑器。VIM是...

    vamod2:Zz

    【vamod2:Zz】是一个与HTML相关的项目,可能是某个Web开发模组或框架的版本。在HTML(超文本标记语言)中,开发者使用一系列的标签来构建网页结构和内容。HTML5是目前最广泛使用的版本,它引入了许多新特性,如语义...

    make命令及makefile文件

    它基于一个文本文件(通常称为`makefile`)来自动化编译和链接过程。makefile 文件定义了如何生成目标文件以及构建过程中的依赖关系。 #### 二、make命令基础 `make`命令的核心在于执行makefile文件中定义的目标...

    zz-trans

    "zz-trans" 项目似乎是一个基于 Rust 语言的软件开发项目。Rust 是一种系统级编程语言,专注于速度、内存安全和并行性。它的设计允许开发者编写低级别的代码,同时避免常见的编程错误,如空指针异常和数据竞争。Rust...

    VI编辑器的使用

    - 用户可以在家目录下创建一个`.exrc`文件,以定义个人的vi配置选项。 ##### 5) 运行Shell命令 - `:!command`:在vi中执行shell命令。 - `:r!command`:读取shell命令的结果到文件中。 - `:!command &`:在后台...

    vi从入门到精通

    除了基本操作之外,VI编辑器还提供了许多高级功能,如多级撤销、脚本支持、宏定义等,这些特性使VI成为一种极其强大且灵活的编辑工具。 ##### 1. 搜索和替换 - `/pattern`:向前搜索指定的模式。 - `?pattern`:向...

Global site tag (gtag.js) - Google Analytics