`
edwardpro
  • 浏览: 312114 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

<![CDATA[中文分词永远的难点]]>

阅读更多
今天同事谈起全文搜索,他说道你又做不到搜索错误提示,就是搜了 fcuk google会提示你是不是要查 fuck这样的提示,因为在搜索中确实很难避免用户输错造成词的搜索不正确。

今天顺便拿google实验了一下,发现它的中文分词居然也开始使用字单位的而不是词单位的分词结构,比如:
输入:
可莱斯勒 (应该是 克莱斯勒)

莱斯勒_报价_参数_配置_太平洋汽车网克莱斯勒品牌专区

太平洋汽车网汽车报价库克莱斯勒汽车品牌专区提供汽车制造厂商简介,要闻,最新动态,生产车型等。这里你可以了解到克莱斯勒汽车的价格、参数、配置、资讯、图片、评论 ...
price.pcauto.com.cn/brand.jsp?bid=39 - 59k - 网页快照 - 类似网页

莱斯勒-搜狐汽车

在履行社会责任方面,戴姆勒-克莱斯勒集团基金在2006年出资万美元支持公益事业。 克莱斯勒集团是全球第五大汽车生产商戴姆勒-克莱斯勒股份公司的一个组成部分。 ...
jsp.auto.sohu.com/view/brand-bid-191.html - 67k - 网页快照 - 类似网页

可莱斯勒的相关焦点


[记者观察]上南合并会是下一个戴克吗? - 14小时前
今年5月,私募基金Cerberus资本管理公司以74亿美元收购克莱斯勒集团80.1%的股份。这意味着,戴姆勒与克莱斯勒各自单飞,戴克集团将被拆分。 ...
红网 - 9 篇相关文章 »
年度11大失败财经预言伯南克曾低估次贷危机 - 和讯 - 6 篇相关文章 »

莱斯勒_戴姆勒-克莱斯勒_新浪汽车_新浪网

莱斯勒,戴姆勒-克莱斯勒,汽车,汽车降价,新车,汽车报价,二手车.
auto.sina.com.cn/salon/DAIMLERCHRYSLER/CHRYSLER.shtml - 223k - 网页快照 - 类似网页

莱斯勒300C_北京奔驰_新浪汽车_新浪网

国产克莱斯勒300C沿承了进口克莱斯勒300C的设计与品质,增配后排DVD音响系统、18英寸镀铬铝圈、电加热座椅等豪华配置,成为同级豪华车中标准配置最高、品质最高的车型 ...
auto.sina.com.cn/salon/bbdc05/bjbcdb/sub_brand/klsl300c.html - 80k - 网页快照 - 类似网页

【图】克莱斯勒汽车报价_汽车之家

汽车报价_汽车报价大全提供汽车报价、最新汽车、汽车价格、汽车新闻、汽车行情、汽车评测和汽车经销商等综合信息。
car.autohome.com.cn/brand/69/ - 2k - 网页快照 - 类似网页


从highlight来看这次搜索的分词应该是以字为单位的,至于克莱斯勒使用贝叶斯或者其他统计学算法就可以算出来,这没什么具体难度。只是感叹一下中文分词的难度,当年第一次搞的时候也采用了je分词,自己也加了词库,但是发现用户输入的内容却是千奇百怪造成了很大问题,使得搜索效率严重下降,然后同事推荐了两分原理的分词,但它的限制就是输入单子就搜不出东西,实验之后认为非常不理想,最后还是用了最简单的单字发,使用单子之后索引的效率确实有所下降,但查处的准确度已经近乎完美,但这不是一个最高效的方法。但今天看看google似乎也采用了单子分词算法看来目前来说分词还是有一定的难度,只好大家各自研究了,大部分分词都是建立在词库上的也难免有些问题,特别是对于一些特殊领域比如it 科技 农林,由于专业名词较多最后导致分词失误,中文说起来容易却不好处理,感叹一下。
分享到:
评论

相关推荐

    微信小程序支付(已调试通过).rar

    微信小程序支付JSAPI交易类型 已通过测试 返回例子如下: &lt;xml&gt;&lt;return_code&gt;&lt;![CDATA[SUCCESS]]&gt;&lt;/return_code&gt; &lt;return_msg&gt;&lt;![CDATA[OK]]&gt;&lt;/return_msg&gt; &lt;result_code&gt;&lt;![CDATA[SUCCESS]]&gt;&lt;/result_code&gt;

    Mybatis 中的&amp;lt;![CDATA[ ]]&amp;gt;浅析

    [CDATA[ ]]&gt; 用于包含 Mybatis 的标签(如 `&lt;if&gt;`、`&lt;where&gt;`、`&lt;choose&gt;` 等),否则这些标签将不会被解析。 实例如下:&lt;select id="allUserInfo" parameterType="java.util.HashMap" resultMap="userInfo1"&gt; &lt;!...

    JAVA对象转换成XML(CDATA)

    [CDATA[ 文本内容 ]]&gt;`,其中"文本内容"部分不能包含字符串"]]&gt;",以防止提前结束CDATA段。同时,CDATA段不能嵌套,也就是说,一个CDATA段内部不能再有另一个CDATA段。 要将Java对象转换成XML并包含CDATA,我们可以...

    微信开发文档

    [CDATA[toUser]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[fromUser]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;1348831860&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[text]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;![CDATA[this is a test]]&gt;&lt;/...

    微信时间开发源码

    [CDATA[%s]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[%s]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;%s&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[%s]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;![CDATA[%s]]&gt;&lt;/Content&gt; &lt;FuncFlag&gt;0&lt;/FuncFlag&gt; &lt;/xml...

    上传xml文档

    &lt;preconditions&gt;&lt;![CDATA[1.使用udp_bi用户在PLSQL正常登陆UAT数据库&lt;br&gt; (UAT数据库IP: 10.0.13.178)&lt;br&gt; 2.数据库脚本已下载至本地环境]]&gt;&lt;/preconditions&gt;&lt;importance&gt;&lt;![CDATA[2]]&gt;&lt;/importance&gt;&lt;steps&gt; &lt;step&gt;

    一个简单的xml文件

    ATTLIST 电话 类别 CDATA "移动电话"&gt; ]&gt; &lt;联系人列表&gt; &lt;说明&gt;&content;&lt;/说明&gt; &lt;联系人&gt; &lt;姓名&gt;刘保文&lt;/姓名&gt; &lt;ID&gt;201003101115&lt;/ID&gt; &lt;公司&gt;腾飞汇通有限公司&lt;/公司&gt; &lt;电话 类别="移动电话"&gt;18993380967&lt;/...

    asp微信开发者回复代码

    [CDATA["&fromusername&"]]&gt;&lt;/ToUserName&gt;" &_ "&lt;FromUserName&gt;&lt;![CDATA["&tousername&"]]&gt;&lt;/FromUserName&gt;" &_ "&lt;CreateTime&gt;"&now&"&lt;/CreateTime&gt;" &_ "&lt;MsgType&gt;news&lt;/MsgType&gt;" &_ "&lt;ArticleCount&gt;3&lt;/...

    省市区表,xml省市区

    自己将数据导入到xml中的,希望有需要的朋友可以自己下载,格式为&lt;!DOCTYPE PCAroot[ &lt;!ELEMENT PCAroot (Province*)&gt; &lt;!ELEMENT Province (City*)&gt; &lt;!ELEMENT City (Area*)&gt; &lt;!ELEMENT Area (#PCDATA)&gt; &lt;!...

    PHP cdata 处理(详细介绍)

    2. '&lt;':当遇到 '&lt;' 时,状态变化到 '&lt;',以判断是否是CDATA部分的起始。 3. '&lt;!':继续往后读,检查是否是CDATA的开始。 4. '&lt;![':继续,检查是否是CDATA的开始。 5. '&lt;![C':继续,检查是否是CDATA的开始。 6. '...

    DTD(文档类型定义)语法[归类].pdf

    &lt;/body&gt; &lt;/note&gt; ``` 对应的`note.dtd`文件内容与内部声明相同。 使用DTD的好处主要包括: 1. **自包含性**:每个XML文件都可以携带其格式描述,方便理解和处理。 2. **标准化**:为不同的人提供了一种共同理解数据...

    微信接口ASP版

    [CDATA[gh_33bb5907f91e]]&gt;&lt;/ToUserName&gt; &lt;FromUserName&gt;&lt;![CDATA[ojLh3jkYtiszyEY-_sM_8yrNxSc4]]&gt;&lt;/FromUserName&gt; &lt;CreateTime&gt;1363231643&lt;/CreateTime&gt; &lt;MsgType&gt;&lt;![CDATA[text]]&gt;&lt;/MsgType&gt; &lt;Content&gt;&lt;...

    xml规范 中文版

    ### XML规范中文版知识点概述 #### 1. 绪论 **1.1 开发者和开发目标** - **开发者**:XML规范是由W3C(万维网联盟)制定的,主要贡献者包括Tim Bray、Jean Paoli以及C. M. Sperberg-McQueen等专家。 - **开发目标...

    微信小程序支付统一下单报错CDATA[商户号mch_id与appid不匹配]

    [CDATA[FAIL]]&gt;&lt;/return&gt; &lt;return&gt;&lt;![CDATA[商户号mch_id与appid不匹配]]&gt;&lt;/return&gt; &lt;/xml&gt; 原因是我拿到的商户号不是这个公众号的。一定要检查是不是这个公众号的商户号。 免责声明:本站所有文章和...

    DTD教程,来自3cSchool

    &lt;/body&gt; &lt;/note&gt; ``` 在这个例子中,`&lt;!DOCTYPE note [...]&gt;`定义了文档类型为`note`,并且规定了`note`元素包含`to`、`from`、`heading`和`body`这四个子元素,每个子元素都允许包含字符数据(#PCDATA)。 外部...

    xml实现留言簿xml+asp+xml+css

    [CDATA[留言内容]]&gt;&lt;/content&gt; &lt;/message&gt; &lt;/messages&gt; &lt;/gbook&gt; ``` 4. **DTD定义**: - 用于定义XML文档的结构和约束条件。 - 例如,`&lt;gbook&gt;` 元素包含了 `&lt;info&gt;` 和 `&lt;messages&gt;` 两个子元素。 ```xml...

    异构系统xml交互程序

    [CDATA[10]]&gt;&lt;/LoginTimeOut&gt; &lt;QueryTimeOut&gt;&lt;![CDATA[3600]]&gt;&lt;/QueryTimeOut&gt; 原始set.xml数据库连接节点缺少以上两个节点请添加,LoginTimeOut为数据库连接超时时间,单位秒,QueryTimeOut为SQL语句执行超时时间...

    Mobile Atlas Creator.exe

    [CDATA[http://t{$serverpart}.tianditu.cn/DataServer?T=cia_w&X={$x}&Y={$y}&L={$z}]]&gt;&lt;/url&gt; &lt;serverParts&gt;0 1 2 3 5 6 7&lt;/serverParts&gt; &lt;backgroundColor&gt;#00000000&lt;/backgroundColor&gt; &lt;/customMapSource&gt; &lt;/...

    dtd定义xml dom4j解析xml小类

    &lt;/body&gt; &lt;/note&gt; ``` 在上面的例子中,我们使用了外部的 DTD 文件“note.dtd”,其中包含了 DTD 声明: ```dtd &lt;!ELEMENT note (to,from,heading,body)&gt; &lt;!ELEMENT to (#PCDATA)&gt; &lt;!ELEMENT from (#PCDATA)&gt; &lt;!...

Global site tag (gtag.js) - Google Analytics