`
l_mai
  • 浏览: 70482 次
社区版块
存档分类
最新评论
  • waret: "&" "ctrl+z& ...
    2011-12-13
  • waret: 在软件设计的过程中中有一些基本的原则,其中有一条是少用继承,多 ...
    2011-11-14
  • waret: 1、序列化是干什么的?  简单说就是为了保存在内存中的各种对象 ...
    2011-11-15
  • waret: 吼吼~最小长度为5~
    2011-10-22

2011-12-2

 
阅读更多
uasvr开发备忘
在uasvr使用的过程中,首先遇到了调用servlet的方法问题,直接使用url的openstream会遇到字数的限制,后采用httpclient,能够成功调用servlet程序clsvr的GET方法,在调用过程中遇到的问题是url中非法字符要去掉,使用的是String的replaceAll的方法。
之后主要问题在于程序的速度。首先对clsvr采用了多线程处理,后采用了缓存语料库到内存,最后采用了训练语料库时将中间结果序列化到硬盘。程序的速度得到了很大提高。
语料库的选择之前百度知道分类不够准确,分类多被分到历史话题、星座运势等分类中,后采用鲜果网语料库,鲜果网的语料库分类较少,使得分类不够精确,后又采用百度知道的语料库,通过减少特征词的选取量,提高了百度知道语料库分类的精确度,分析原因是特征词选取减少使得词语更能代表这一类,不同类出现的概率是平等的,而之前特征词比较多,一些对分类贡献不大的词会因为语料库中一些分类中词语涵盖比较全而被误分类。在提高了精确度的同时,也造成了一些句子的误分类。这与贝叶斯分类假设词语之间是相互独立的有关。
分享到:
评论

相关推荐

    compat-wireless-2011-12-01.tar.bz2

    compat-wireless-2011-12-01.tar.bz2

    tgs2011 (20171226).rar_TGS2011_TGS2011 20180428_TGS2011-2107-12-

    《TGS2011:探索游戏盛会的数字化历程》 TGS2011,全称为Tokyo Game Show 2011,是日本东京举办的一年一度的游戏盛会,致力于展示全球电子游戏产业的最新技术和创新产品。该活动自2011年起,每年都会吸引无数游戏...

    2011-02-12.jsonbookmarks

    bookmarks-2011-02-12.jsonbookmarks-2011-02-12.jsonbookmarks-2011-02-12.jsonbookmarks-2011-02-12.jsonbookmarks-2011-02-12.jsonbookmarks-2011-02-12.json

    bookmarks-2011-01-12.jsonbookmarks-2011-01-12.json

    bookmarks-2011-01-12.jsonbookmarks-2011-01-12.jsonbookmarks-2011-01-12.jsonbookmarks-2011-01-12.jsonbookmarks-2011-01-12.json

    IB Expert 2011-12-11

    "IB Expert 2011-12-11" 是一个专为Interbase数据库系统设计的专业工具,它在2011年12月11日发布,提供了丰富的功能来提升数据库管理和开发效率。Interbase是一款关系型数据库管理系统,由Embarcadero Technologies...

    ISO+IEC+14882-2011-最终正式C++11标准.pdf

    国际标准化组织(ISO - International Organization for Standardization).2011-12-08[引用日期2014-11-15] 2.ISO/IEC JTC1/SC22/WG14 - C: Approved standards .Open Standards.2011-04-12[引用日期2014-11-26...

    IEC 61000-3-12-2011(EMC) –Part 3-12

    IEC 61000-3-12-2011 Electromagnetic compatibility (EMC) –Part 3-12 Limits – Limits for harmonic currents produced by equipment connected to public low-voltage systems with input current 16 A and ≤...

    tslib-2011-01-12(触摸屏源代码)

    tslib-2011-01-12是该库的一个版本,发布于2011年1月12日。 **tslib的功能与工作原理** tslib的主要功能是对来自触摸屏硬件的原始输入数据进行校准、平滑处理,并将其转换为可被操作系统和应用程序理解的坐标。它...

    IEC 60300-3-12:2011 可靠性管理- Part 3-12:应用指南-综合后勤保障 - 完整英文版(106页)

    完整英文版 IEC 60300-3-12:2011 Dependability management- Part 3-12:Application guide - Integrated logistic support(可靠性管理- Part 3-12:应用指南-综合后勤保障)。IEC 60300-3-12:2011 是用于建立综合...

    2011-12-5 MSN.docx

    2011-12-5 MSN.docx

    SEP-12-Sales-2011-07-06.pptx

    SEP-12-Sales-2011-07-06.pptx

    C语言100例及教程 2011-12-10

    C语言100例及教程 2011-12-10.2011年11月最新整理,2011年11月最新整理;

    EasyX库(graphics.h) 测试版 (2011-10-31 更新)

    •修正了 setcolor 对 drawtext 无效的问题 (2011-5-2); •修正了文字输出不稳定的问题 (2011-5-21); •修正了与某些翻译软件的“划词翻译”功能的冲突 (2011-5-31); •修正了 circle 和 ellipse 函数有时会不...

    youmi-android_v3.05_2011-12-30

    youmi-android_v3.05_2011-12-30

    dropbox 2011-12-13最新客户端

    dropbox 2011-12-13最新Windows客户端,安装即可使用

    [2011-12-05]myMFC.rar

    【标题】:“[2011-12-05]myMFC.rar”这个压缩文件可能是一个关于Microsoft Foundation Classes (MFC)的项目或教程资料。MFC是微软为Windows平台开发的一个C++类库,它封装了Windows API,使得开发者能够更方便地...

    ISO/IEC 9075(1-4,9-11,13,14):2011

    2. "7IWD2-14-XML-2011-12.pdf" 涉及到XML与SQL的集成,可能是关于如何在SQL环境中处理XML数据的标准。 3. "7IWD2-09-MED-2011-12.pdf" 可能涉及医疗或数据交换领域的应用,可能包含特定行业的数据模型和标准。 4. ...

    EXCEL速查大全 2011-12-10

    《EXCEL速查大全 2011-12-10》是针对Microsoft Excel这款强大的电子表格软件的参考资料,适用于各个级别的用户,无论是初学者还是高级用户,都能从中找到实用的操作技巧和解决方法。这份速查大全是在2011年11月20日...

    Linux命令大全 2011-12-10

    "Linux命令大全 2011-12-10"文档可能是当时整理的一份详尽的Linux命令参考,包含了2011年11月20日之前所有重要的命令及其用法。虽然时间已过去多年,但许多基础命令仍然沿用至今,因此这份资料依然具有很高的学习...

Global site tag (gtag.js) - Google Analytics