`
l_mai
  • 浏览: 68661 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22

2011-11-01

 
阅读更多
想提高程序分析的准确度,语料库的问题很多。
百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分
微话题:涉及内容不够全面
搜狗文本分类语料库:分类不准确
鲜果网语料库:目前测试还可以

分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语料库。搜狗语料库是针对中文新闻,资源比较好整理。对于一些其他话题,如团购信息,则语料库是个问题。
分享到:
评论

相关推荐

    1970去百度去快车2011-11-01补丁

    标题中的“1970去百度去快车2011-11-01补丁”可能是指一个针对特定日期(2011年11月1日)的软件更新,旨在移除与百度和“快车”(可能是某种浏览器或下载工具)相关的组件或功能。这个补丁可能是由第三方开发者创建...

    jsonbookmarks-2011-01-25

    bookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.jsonbookmarks-2011-01-25.json

    2011-01-01日期格式

    本文将深入探讨“2011-01-01”这种日期格式的由来、应用及实现方式。 ### 一、日期格式的重要性 在日常的数据处理中,我们经常遇到日期这一元素。日期格式的不统一会导致数据解析困难,甚至在跨系统数据交换时引发...

    linux精通必学2011-01-11.part4

    linux精通必学2011-01-11.part4linux精通必学2011-01-11.part4linux精通必学2011-01-11.part4

    linux精通必学2011-01-11.part3

    linux精通必学2011-01-11.part3linux精通必学2011-01-11.part3

    linux精通必学2011-01-11.part1

    linux精通必学2011-01-11.part1linux精通必学2011-01-11.part1

    linux精通必学2011-01-11.part2

    linux精通必学2011-01-11.part2linux精通必学2011-01-11.part2

    linux精通必学2011-01-11.part7

    linux精通必学2011-01-11.part7linux精通必学2011-01-11.part7

    linux精通必学2011-01-11.part6

    linux精通必学2011-01-11.part6linux精通必学2011-01-11.part6

    linux精通必学2011-01-11.part5

    linux精通必学2011-01-11.part5linux精通必学2011-01-11.part5

    ISO/IEC 9075(1-4,9-11,13,14):2011

    8. "7IWD2-01-Framework-2011-12.pdf" 通常是整个标准的框架介绍,解释了标准的组织结构和目标。 9. "7IWD2-11-Schemata-2011-12.pdf" 可能涉及数据库模式和架构的设计,包括表、视图、索引等定义。 这些文档合在...

    基于-单片机光电开关转速测量装置设计.doc

    | 2011-11-01--2011-11-18 | 毕业论文选题、审题 | 2011-11-18 | | 2011-11-19--2011-12-15 | 查阅资料、完成开题报告初稿 | 2011-12-15 | | 2011-12-15--2011-12-31 | 修改开题报告、定稿 | 2011-12-31 | | 2012-01...

    敏感词过滤软件

    软件名称:敏感词过滤软件 软件目的:敏感词替换 截图 上传微薄 开发环境: vc++6 这个是一个学习vc++的一个业余工具,本人声明本工具不带有...2011-11-01 V0.11版本: 完成最小模型化功能 和谐一下 支持文本打开

    openssl 的VC工程for openssl-1.0.0e

    2011-09-27 11:01 123,904 enginetest.pdb 2011-09-27 11:01 57,434 errstr.exe 2011-09-27 11:01 285,692 errstr.ilk 2011-09-27 11:01 230,400 errstr.pdb 2011-09-27 11:01 32,860 evp_test.exe 2011-09-27 11:01...

    报表开发工具FineReport日期常用处理函数

    例如,输入`=date(2011,1,10)`将返回日期`2011-01-10`。如果输入的月份超过12,则该月会被视为下一年的1月份,并且从1月开始累加。比如`=date(2011,13,10)`会返回`2012-01-10`。类似地,日期中的天数如果超过了月份...

    ISO IEC 7816(1-13, 15)

    2011-01-31. Retrieved 2011-11-12. ISO/IEC 7816-1:1998/Amd 1:2003 Maximum height of the IC contact surface". Iso.org. 2011-01-31. Retrieved 2011-11-12. ISO/IEC 7816-2:2007 Identification cards — ...

    BPMN2.0规范2011-01-03

    BPMN2.0规范中的附带文档,如11-01-03.pdf,通常会包含详细的语法解释、示例和最佳实践指导,帮助用户深入理解和应用BPMN2.0。这些资源对于流程分析师、项目经理、开发人员以及所有参与流程改进的人都极其宝贵,能够...

    LTP01-245-11_12_18

    《LTP01-245-11_12_18 热敏打印机技术参考》 本文档详细介绍了精工(Seiko Instruments Inc., 简称SII)制造的LTP01-245-11、LTP01-245-12以及LTP01-245-18系列热敏打印机机构的技术规格和基本操作程序。这些打印机...

    Android程序研发源码weibo4andriod-2011-01-14.zip

    《Android程序研发源码分析——基于weibo4android-2011-01-14.zip》 在Android开发领域,源码分析是提升技术水平和深入理解系统工作原理的重要途径。本篇将针对"weibo4android-2011-01-14.zip"这个压缩包中的源码...

    oracle日期字符串的相互转换

    **说明:**这里将2011-11-15这个日期加上两个月份,得到了2012-01-15。 #### 八、总结 通过以上内容,我们详细介绍了Oracle中日期与字符串转换的各种方法。这些转换不仅限于简单的日期格式化,还包括了日期的加减...

Global site tag (gtag.js) - Google Analytics