`
zwbill
  • 浏览: 33728 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

[原]基于体裁的中文网页自动分类的研究与实现

 
阅读更多

版权说明:本论文为原创性文章,已经公开发表在 中国科技论文在线 (http://www.paper.edu.cn)。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:

赵文, 唐建雄. 基于体裁的中文网页自动分类的研究与实现[EB/OL]. 中国科技论文在线(http://www.paper.edu.cn), 2008,4.

论文下载地址:http://www.paper.edu.cn/paper.php?serial_number=200804-268&task=comment

论文摘要:

基于体裁的中文网页自动分类的研究与实现

 

 

E-mailzw_79@163.com

 

要:为了优化互联网信息检索系统,使其能更准确的从结果集中区分出满足用户需要的页面,本文提出了一种对网页按体裁分类的方法。该方法以网页的标签、形态、内容、词性作为体裁特征,并以特征项的频率、集中度和分散度三者结合为衡量标准,利用自动特征选取技术,从中选取出有价值的特征项;然后采用基于相似度加权的KNN分类算法对网页按体裁进行自动分类;最后设计和实现了分类系统,并进行了实验测试与结果分析。结果表明:分类器开放测试的平均精度达到80%。

 

关键词网页分类;体裁;特征提取;K近邻算法

 

中图分类号:TP391 文献标识码:A

 

 

分享到:
评论

相关推荐

    基于Python实现多类别文本分类.zip

    在本项目"基于Python实现多类别文本分类.zip"中,我们主要探讨如何使用Python编程语言进行多类别文本分类。这通常涉及到自然语言处理(NLP)和机器学习领域,是数据科学和人工智能的重要组成部分。多类别文本分类是...

    电信设备-一种基于体裁的多维信息检索系统.zip

    本资料集中探讨的是一种创新的“基于体裁的多维信息检索系统”,它针对电信设备的信息管理与检索进行了深度优化,旨在提高效率、精准度和用户体验。 首先,我们要理解什么是“基于体裁的检索”。在信息检索领域,...

    学术英语文章体裁.pdf

    报告(Report)是学术英语写作中常用的一种体裁,它通常用于描述、分类或分析研究对象或数据。报告体裁分为三个子分类: 1. 分类报告(Classifying):这种报告主要用于对研究对象进行分类,建立分类体系。它的结构...

    卷积递归神经网络在音乐体裁分类中的张量流实现——python

    在这个案例中,我们将探讨如何在Python环境中,利用TensorFlow库来实现CRNN在音乐体裁分类中的应用。 音乐体裁分类是将音乐片段根据其风格、情绪等特征进行划分的过程。这项任务通常涉及音频信号处理、特征提取以及...

    中文网页体裁分类特征项的权值调整策略 (2007年)

    文本信息的自动化处理变得尤为重要,尤其是针对中文网页的体裁分类。传统的文本分类方法侧重于内容分析,而忽视了文章的功能性和形式结构特征。基于体裁的文本分类不仅关注内容,还考虑到文本的表达方式和结构特点,...

    一种宋词自动生成的遗传算法及其机器实现

    本研究主要关注的是宋词这一特定的汉语诗歌体裁,并通过探索遗传算法来实现其自动生成。 ### 二、研究背景与意义 宋词作为中国古代文化的重要组成部分,具有独特的艺术魅力。然而,由于其结构复杂、语言精炼等特点...

    体裁分文章体裁和文学体裁.doc

    【描述】: 文档主要探讨了文章体裁和文学体裁的分类及其特点 【标签】: 资料 【部分内容】: 文章体裁是根据文章内容和表现形式划分的不同类型,通常包括记叙文、说明文、议论文和散文。下面对这些体裁进行详细阐述...

    有效的练习应基于文本的体裁样式-.docx

    ### 有效练习与文本体裁样式的重要性 #### 一、引言 随着教育改革的深入,语文教学越来越强调学生的主体地位以及实践活动中的学习效果。在实际教学过程中,“作业与练习”成为了阅读教学的重要组成部分,其目的...

    古代诗歌的体裁分类有哪些.pdf

    古代诗歌的体裁分类有哪些.pdf

    《民歌及体裁分类》PPT课件.ppt

    《民歌及体裁分类》PPT课件.ppt

    基于SSM+mysql的古诗词数字化平台设计与实现(源码+设计文档+部署说明+视频演示).zip

    资源名字:基于SSM+mysql的古诗词数字化平台设计与实现(源码+设计文档+部署说明+视频演示).zip 资源内容:项目全套源码+完整文档 源码说明: 全部项目源码都是经过测试校正后百分百成功运行。 基于SSM+MySQL的古...

    Register-and-Genre语域与体裁-PPT.ppt

    根据给定文件的信息,我们可以详细地探讨“语域(Register)与体裁...在未来的研究中,可以探索如何将语域和体裁的概念应用于计算机科学领域,如自然语言处理、机器翻译等方面,以实现更加智能和人性化的交互系统。

    机器学习(NLP):大规模、多体裁的自然语言推理数据集

    MultiNLI Textual Entailment Corpus是一个大规模、多体裁的自然语言推理数据集,包含433K个句子对,...数据集的潜在应用场景包括客户服务、银行系统等,可以基于自然语言输入自动化某些流程,如情感分析或句子总结。

    基于神经网络的集句诗自动生成.pdf

    本文主要探讨了一种基于神经网络的集句诗自动生成模型,该模型利用计算机的大规模存储和检索能力,结合神经网络的语义表示和理解能力,实现了对中国古典诗歌的创新性创作。集句诗是中国古典诗歌的独特体裁,它通过...

    跨境电商平台中产品介绍话语的批评体裁分析——以3C产品介绍语篇为例.pdf

    3. **多视角和多方法的应用**:由于专业话语实践涉及多个主体的相互交织和动态演变,CGA提倡多种学科间的对话,以实现研究过程中的充分观察、描述、解释和批评。CGA支持将对话分析、语料库话语分析、多模态话语分析...

    英语白皮书前言的体裁分析.pdf

    体裁分析作为语篇分析的新领域,其核心目标在于研究语篇的交际目的与语言使用策略。语篇分析是一种探讨语言交流形式和功能的方法,它的研究范围包括了文学文本、法律文件、学术论文等各种类型的文本。体裁分析特别...

    How Universal is Genre in Universal Dependencies_通用依赖中的体裁有多通用.pd

    《通用依赖中的体裁有多通用》这篇论文主要探讨了在多语言环境下的通用依赖(UD)框架中,不同语料库的体裁分类问题。通用依赖是一个旨在建立跨语言一致的句法分析标准的项目,它包含18种不同的体裁,这些体裁的特定...

Global site tag (gtag.js) - Google Analytics