目前,主要的文档自动分类算法可以分为三类:
1.词匹配法 : 根据文本中与类别中共同出现的词来决定该文本属于哪种类别. 该分类方法对语境不敏感,无法正确处理在不同的上下文环境中某个词的不同含义,分类的准确度也很低.
2.基于知识工程的方法: 该方法依赖于知识工程师手工编写大量的的推理规则, 这些规则通常面向具体的领域, 当处于不同领域的分类问题时,需要不同领域的知识工程师编写不同的推理规则, 并且分类质量严重依赖于推理规则的质量, 在实际的分类系统中较少使用基于知识工程的学习法.
3.统计学习法: 基本思路是先搜集一些与待分类的文本属于同一领域的文档作为训练集, 并由专家进行分类, 保证分类的准确性,然后分析这些已经分好类的文档,从中挖掘关键词和类别之间的联系,最后再利用这些学到的知识进行分类, 而不是机械地按词进行匹配. 这种基于统计的经验学习法具有良好的理论基础,简单的实现机制以及较好的分类质量,目前实用的分类系统基本上都是采用这种分类方法.
根据分类的结果不同,基于统计学习法的分类系统又分为:独立二元(Independent Binary)分类系统和m元(m-ary)分类系统. 独立二元分类就是给定一篇文档分类系统对每一个分类都进行判断这篇文档是否属于这个类别, 其结果只有两个, 要么属于,要么不属于. m元分类系统就是给定一篇文档,计算该文档与每个类别的相似度,最后按照相似度对类别进行排序.
国外当前流行的文本分类方法有Rocchio法及其变异方法、k近邻法(kNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法。
文档分类算法如图所示:
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yourszhu/archive/2009/08/20/4463424.aspx
分享到:
相关推荐
s变换用的高斯窗函数( 高斯窗是指数窗的一种,它也无负的旁瓣,而且没有旁瓣波动,因而不回引起计算谱中假的极大值或极小值,而且高斯窗频率窗函数的主瓣比指数窗的主瓣窄,分辨率比指数窗有所提高。
2021科大讯飞车辆贷违预测大赛冠军源码+全部资料.zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
AI图像处理工具包-一键抠图、背景切换、旧照片修复、人像漫画化、视频卡通化(Python+OpenCV+Dlib+TensorFlow).zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
基于java+springboot+vue+mysql的远程教育网站设计与实现.docx
毕业设计资料,计算机毕业设计,源码,毕业论文,毕业答辩,答辩PPT,Java毕业设计,php毕业设计,ASP.NET毕业设计,毕业指导,计算机作业,php作业,java作业,ASP.NET作业,编程作业,管理系统,网站,app,毕业设计学习,Java学习,php学习,ASP.NET学习,java课程,php课程,ASP.NET课程,答辩技巧,SQLSERVER数据库,Mysql数据库,jdbc,SSM框架,SpringBoot框架,Html5,小程序
蓝牙串口助手,可以连接HC-05等蓝牙模块,实现单片机设备与手机通讯,安卓手机,蓝牙调试助手,具有按键功能!
TriLib 2 是一个跨平台的运行时 3D 模型导入器
人力资源+大数据+薪酬报告+涨薪调薪,在学习、工作生活中,越来越多的事务都会使用到报告,通常情况下,报告的内容含量大、篇幅较长。那么什么样的薪酬报告才是有效的呢?以下是小编精心整理的调薪申请报告,欢迎大家分享。相信老板看到这样的报告,一定会考虑涨薪的哦。