`

问答社区的问题分类任务

    博客分类:
阅读更多

问答社区的问题分类任务

 

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短,很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面:

 

正确率和召回率。

计算量。

 

正确率和召回率:用微F测度来衡量。与传统分类算法的比较见下图:

 



 

       之所以未同SVM比较,是因为在这个时刻,SVM还在训练过程中……当然我承认我选的数据有点变态,近90w条,并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上,据2001TREC文本过滤比赛第一的DavidD.Lewis声称,他的比赛程序采用SVMLight作为分类器内核,对英文词汇进行了去词缀处理,但没有去停用词,因此估计特征项大约在20000维左右,用SUN的服务器运行了整整一周,才得到实验结果。OMG~

       至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

 

       计算量:在我的pc机上每秒可以分类近2w个问题文本;

 

       一般的问答服务网站,针对用户的提问,会给出多个可能的类别供用户选择。在我们的系统中,如果为用户提供3个可能的选择类别,则有93%以上的概率正确的类别可以被包含。

 

       我们的实验基于新浪问答中用爬虫得到的10个领域(汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好)的超过100w条数据。感谢新浪问答对爬虫的容忍……

  • 大小: 22.3 KB
分享到:
评论
2 楼 summerbell 2009-12-20  
arsog 写道
可不可以说一下你的算法呢?

你试试SVM。不降维。选线性核函数。
1 楼 arsog 2009-12-17  
可不可以说一下你的算法呢?

相关推荐

    BBS问答社区程序(可支持程序).rar

    【描述】中的信息与标题相同,进一步确认这是一个BBS问答社区的程序,可能含有源码、配置文件、数据库脚本等,旨在帮助用户建立一个互动性强、用户可以提问和回答问题的在线社区。 【标签】中的"计算机专业"指出这...

    360问答社区系统 Thinkphp框架

    《360问答社区系统基于Thinkphp框架的深度解析》 在互联网技术高速发展的今天,问答社区已经成为用户获取知识、交流经验的重要平台。360问答社区系统以其独特的功能和用户体验,深受用户喜爱。本文将深入探讨这个...

    BBS问答社区程序使用说明

    数据挖掘是信息科学的重要分支,主要任务包括分类、聚类、关联规则学习、序列模式挖掘等。这些方法旨在发现数据集中的潜在规律,用于预测、决策支持或知识发现。在BBS社区中,数据挖掘可以用来识别热门话题、预测...

    毕设项目-基于SpringBoot的知会问答社区论坛(内含搭建流程、功能超多)

    知会问答社区论坛,web系统,功能很多,代码完善,类似论坛和发帖评论,中国地图Echarts报表展示,首页Elasticsearch全局搜索,Quartz定时任务统计数据,当做毕设和或学习都是不错的选择。 适用范围:毕业设计、课程...

    问答系统安装版

    **问答系统概述** 问答系统是一种基于自然语言处理的软件应用,它旨在帮助用户获取信息、解答问题或解决特定任务。Tipask问答系统是一款...了解这些知识点有助于顺利搭建和管理一个问答社区,促进知识的共享与传播。

    毕设&课设&项目&实训-网页设计比赛项目-武大线上问答社区WHUwhy.zip

    【标题】中的“毕设&课设&项目&实训-网页设计比赛项目-武大线上问答社区WHUwhy”表明这是一个针对学生设计的项目,旨在帮助他们完成毕业设计、课程设计或者实训任务,同时也是一个参与网页设计比赛的案例。...

    NLP各类任务pytorch代码

    在NLP任务中,PyTorch被广泛用于构建神经网络模型,如词嵌入、序列标注、机器翻译、文本分类和问答系统等。 标题“NLP各类任务pytorch代码”表明这个压缩包可能包含了使用PyTorch实现的各种NLP任务的代码示例。这些...

    互联网社区产品方法论 .doc

    2. **互联网社区分类** - **内容形式分类**:社区可以根据内容形式划分为图片社区(如Instagram)、视频社区(如B站)和直播社区(如快手)等。 - **产品形态分类**:包括论坛(如猫扑)、微博(如饭否)和问答...

    pytorch-pretrained-BERT-master_python_bert问答_BERT_

    BERT可以轻松地应用到文本分类任务,只需添加一个分类层在预训练模型的顶部。对于序列标注,例如命名实体识别,可以通过在每个位置的输出上添加特定的标签层来实现。 5. **问答任务**: 在问答系统中,BERT能对...

    bert相关任务,用于学习交流

    例如,如果目标是分类任务,那么可能需要添加一个分类头;如果是序列标注任务,可能需要修改模型的输出层。 4. **训练过程**:包括设置超参数、训练循环、损失函数和优化器的选择。可能还会涉及到训练过程中的技巧...

    60k Stack OverFlow问题与质量评级数据集.zip

    Stack Overflow是全球最大的程序员问答社区,用户在这里提出编程相关的问题并得到其他专家的回答。这个数据集可能是用于研究或训练自然语言处理(NLP)模型,尤其是那些涉及理解和评价编程问题质量的任务。 描述中...

    仿59store校园o2o系统 v6.9-问答红包+每日红包+分类信息邀请红包打赏.zip

    【标题】"仿59store校园o2o系统 v6.9-问答红包+每日红包+分类信息邀请红包打赏.zip"所涉及的知识点主要集中在以下几个方面: 1. **校园O2O系统**:O2O(Online To Offline)模式是指线上到线下的商业模式,它将...

    视觉问答(文章中附代码)Tutorial on Answering Questions about Images with Deep Learning

    在教学方法上,教程首先让读者熟悉视觉问答任务和相关数据集,然后通过构建几个基础的模型来回答关于图像的问题,这些模型可以在不实际观看图像的情况下进行操作。尽管这些盲模型在没有视觉输入的情况下进行操作,但...

    垃圾分类活动策划书.doc

    社区作为城市的细胞,其居民的垃圾分类意识和行为的改变对推进垃圾分类工作具有重要意义。因此,策划一场以“环保垃圾,废物利用”为主题的垃圾分类活动显得尤为必要。 活动的核心目标是通过居民的实际参与,增强...

    Python-UERpy通用域语料预训练和下游任务微调工具包

    UER-py(Unified Encoder-Decoder in Python)是基于Python的一个开源库,它支持多种预训练模型,如BERT、RoBERTa、ALBERT等,并且提供了丰富的下游任务接口,包括文本分类、命名实体识别、机器翻译、问答系统等。...

    Android_EduChat_社区APP源码_一个社区聊天APP源码_android_安卓社区源码_AndroidIM通讯_源

    社区APP通常包含用户注册登录模块、论坛讨论区、私信聊天功能、动态分享、话题分类以及用户资料管理等核心部分。EduChat作为教育社区APP,可能还特别强调了课程讨论、作业互助、教师问答等功能,以满足教育场景下的...

    Python-NeuralClassifier一种开源神经分层多标签文本分类工具包

    它集成了深度学习技术,使得开发者和研究人员能够高效地处理复杂文本数据,实现多类别的分类任务。在自然语言处理(NLP)领域,多标签分类是一个重要的问题,因为一个文本往往可以关联多个标签,例如新闻文章可能...

    垃圾分类活动策划方案大全.docx

    3. **目标任务**:包括垃圾分类的宣传普及、社区共建、分类设施设置以及经费保障。 4. **阶段安排**:分为宣传准备、推行和提高巩固三个阶段,逐步推进垃圾分类工作。 5. **工作措施**:包括召开会议、在校内宣传、...

    Transformers:适用于 Pytorch、TensorFlow 和 JAX 的最先进的机器学习

    文本,用于文本分类、信息提取、问答、摘要、翻译和文本生成等任务,支持 100 多种语言。 图像,用于图像分类、对象检测和分割等任务。 音频,用于语音识别和音频分类等任务。 Transformer 模型还可以结合几种模式...

Global site tag (gtag.js) - Google Analytics