`

问答社区的问题分类任务

    博客分类:
阅读更多

问答社区的问题分类任务

 

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短,很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面:

 

正确率和召回率。

计算量。

 

正确率和召回率:用微F测度来衡量。与传统分类算法的比较见下图:

 



 

       之所以未同SVM比较,是因为在这个时刻,SVM还在训练过程中……当然我承认我选的数据有点变态,近90w条,并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上,据2001TREC文本过滤比赛第一的DavidD.Lewis声称,他的比赛程序采用SVMLight作为分类器内核,对英文词汇进行了去词缀处理,但没有去停用词,因此估计特征项大约在20000维左右,用SUN的服务器运行了整整一周,才得到实验结果。OMG~

       至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

 

       计算量:在我的pc机上每秒可以分类近2w个问题文本;

 

       一般的问答服务网站,针对用户的提问,会给出多个可能的类别供用户选择。在我们的系统中,如果为用户提供3个可能的选择类别,则有93%以上的概率正确的类别可以被包含。

 

       我们的实验基于新浪问答中用爬虫得到的10个领域(汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好)的超过100w条数据。感谢新浪问答对爬虫的容忍……

  • 大小: 22.3 KB
分享到:
评论
2 楼 summerbell 2009-12-20  
arsog 写道
可不可以说一下你的算法呢?

你试试SVM。不降维。选线性核函数。
1 楼 arsog 2009-12-17  
可不可以说一下你的算法呢?

相关推荐

    BBS问答社区程序(可支持程序).rar

    【描述】中的信息与标题相同,进一步确认这是一个BBS问答社区的程序,可能含有源码、配置文件、数据库脚本等,旨在帮助用户建立一个互动性强、用户可以提问和回答问题的在线社区。 【标签】中的"计算机专业"指出这...

    360问答社区系统 Thinkphp框架

    《360问答社区系统基于Thinkphp框架的深度解析》 在互联网技术高速发展的今天,问答社区已经成为用户获取知识、交流经验的重要平台。360问答社区系统以其独特的功能和用户体验,深受用户喜爱。本文将深入探讨这个...

    BBS问答社区程序使用说明

    数据挖掘是信息科学的重要分支,主要任务包括分类、聚类、关联规则学习、序列模式挖掘等。这些方法旨在发现数据集中的潜在规律,用于预测、决策支持或知识发现。在BBS社区中,数据挖掘可以用来识别热门话题、预测...

    毕设项目-基于SpringBoot的知会问答社区论坛(内含搭建流程、功能超多)

    知会问答社区论坛,web系统,功能很多,代码完善,类似论坛和发帖评论,中国地图Echarts报表展示,首页Elasticsearch全局搜索,Quartz定时任务统计数据,当做毕设和或学习都是不错的选择。 适用范围:毕业设计、课程...

    问答系统安装版

    **问答系统概述** 问答系统是一种基于自然语言处理的软件应用,它旨在帮助用户获取信息、解答问题或解决特定任务。Tipask问答系统是一款...了解这些知识点有助于顺利搭建和管理一个问答社区,促进知识的共享与传播。

    毕设&课设&项目&实训-网页设计比赛项目-武大线上问答社区WHUwhy.zip

    【标题】中的“毕设&课设&项目&实训-网页设计比赛项目-武大线上问答社区WHUwhy”表明这是一个针对学生设计的项目,旨在帮助他们完成毕业设计、课程设计或者实训任务,同时也是一个参与网页设计比赛的案例。...

    NLP各类任务pytorch代码

    在NLP任务中,PyTorch被广泛用于构建神经网络模型,如词嵌入、序列标注、机器翻译、文本分类和问答系统等。 标题“NLP各类任务pytorch代码”表明这个压缩包可能包含了使用PyTorch实现的各种NLP任务的代码示例。这些...

    互联网社区产品方法论 .doc

    2. **互联网社区分类** - **内容形式分类**:社区可以根据内容形式划分为图片社区(如Instagram)、视频社区(如B站)和直播社区(如快手)等。 - **产品形态分类**:包括论坛(如猫扑)、微博(如饭否)和问答...

    pytorch-pretrained-BERT-master_python_bert问答_BERT_

    BERT可以轻松地应用到文本分类任务,只需添加一个分类层在预训练模型的顶部。对于序列标注,例如命名实体识别,可以通过在每个位置的输出上添加特定的标签层来实现。 5. **问答任务**: 在问答系统中,BERT能对...

    bert相关任务,用于学习交流

    例如,如果目标是分类任务,那么可能需要添加一个分类头;如果是序列标注任务,可能需要修改模型的输出层。 4. **训练过程**:包括设置超参数、训练循环、损失函数和优化器的选择。可能还会涉及到训练过程中的技巧...

    60k Stack OverFlow问题与质量评级数据集.zip

    Stack Overflow是全球最大的程序员问答社区,用户在这里提出编程相关的问题并得到其他专家的回答。这个数据集可能是用于研究或训练自然语言处理(NLP)模型,尤其是那些涉及理解和评价编程问题质量的任务。 描述中...

    仿59store校园o2o系统 v6.9-问答红包+每日红包+分类信息邀请红包打赏.zip

    【标题】"仿59store校园o2o系统 v6.9-问答红包+每日红包+分类信息邀请红包打赏.zip"所涉及的知识点主要集中在以下几个方面: 1. **校园O2O系统**:O2O(Online To Offline)模式是指线上到线下的商业模式,它将...

    视觉问答(文章中附代码)Tutorial on Answering Questions about Images with Deep Learning

    在教学方法上,教程首先让读者熟悉视觉问答任务和相关数据集,然后通过构建几个基础的模型来回答关于图像的问题,这些模型可以在不实际观看图像的情况下进行操作。尽管这些盲模型在没有视觉输入的情况下进行操作,但...

    Python-UERpy通用域语料预训练和下游任务微调工具包

    UER-py(Unified Encoder-Decoder in Python)是基于Python的一个开源库,它支持多种预训练模型,如BERT、RoBERTa、ALBERT等,并且提供了丰富的下游任务接口,包括文本分类、命名实体识别、机器翻译、问答系统等。...

    Android_EduChat_社区APP源码_一个社区聊天APP源码_android_安卓社区源码_AndroidIM通讯_源

    社区APP通常包含用户注册登录模块、论坛讨论区、私信聊天功能、动态分享、话题分类以及用户资料管理等核心部分。EduChat作为教育社区APP,可能还特别强调了课程讨论、作业互助、教师问答等功能,以满足教育场景下的...

    Python-NeuralClassifier一种开源神经分层多标签文本分类工具包

    它集成了深度学习技术,使得开发者和研究人员能够高效地处理复杂文本数据,实现多类别的分类任务。在自然语言处理(NLP)领域,多标签分类是一个重要的问题,因为一个文本往往可以关联多个标签,例如新闻文章可能...

    垃圾分类活动策划方案大全.docx

    3. **目标任务**:包括垃圾分类的宣传普及、社区共建、分类设施设置以及经费保障。 4. **阶段安排**:分为宣传准备、推行和提高巩固三个阶段,逐步推进垃圾分类工作。 5. **工作措施**:包括召开会议、在校内宣传、...

    Transformers:适用于 Pytorch、TensorFlow 和 JAX 的最先进的机器学习

    文本,用于文本分类、信息提取、问答、摘要、翻译和文本生成等任务,支持 100 多种语言。 图像,用于图像分类、对象检测和分割等任务。 音频,用于语音识别和音频分类等任务。 Transformer 模型还可以结合几种模式...

    问题请教工程,问题请教工程

    在IT行业中,问题请教工程是一项常见且至关重要的任务。它涉及到技术咨询、故障排查、解决方案设计等多个环节,是提升技术水平和团队协作效率的关键。在这个场景下,"问题请教工程"可能指的是开发者或工程师在遇到...

Global site tag (gtag.js) - Google Analytics