`
imjl
  • 浏览: 156333 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

记录下最近做得 产品中文分词

阅读更多
需要对一些信息进行产品Score的排序

思路: 厂家, 产品系列, 产品型号, 分销, 零售商等字典, 按照需求特性对他们进行分级

格式化用户请求信息, 根据上述字典切割成有效关键词, 根据这些关键词进行score计算

因为考虑到用户可能会输入些辅助词语, 所以找了个简单的常规字典来切分这类词语

根据词语的重要性, 出现的次数计算出score,对此排序.

code比较简单, 这里需要注意的是如何分级, 分级的score如何设定.

简单的完成后, 排重需求比较急, 所以没有优化和测试该分词效率和资源占用状况


顺便说下通用搜索的分词, 目前已知的算法在准确性上面都有些不足之处.
难点主要在于 网络用词的出现, 新型专业用语, 某段时间的词语需要特别处理 等等.



分享到:
评论
2 楼 imjl 2009-03-16  
我比较了搜狗和谷歌的输入法词库, sougou的是大,但对我而言意义不大,我只是把它作为辅助的词库使用,一般就够用了。

这两个字典说穿了,是个鸡肋,辅助用用还行,想不出它们适用啥搜索
1 楼 fys124974704 2009-03-16  
我曾经看过一篇文章,作者写到他自己做的分词器融入了搜狗输入法的词库,我想如果这样应该算比较强大了,因为搜狗的字库更新速度比较快的!lz有没有考虑过?

相关推荐

    C#实现的中文分词程序

    中文分词是将连续的汉字序列切分成具有实际意义的词语的过程,因为中文没有像英文那样的空格作为单词的天然分隔符,所以需要通过特定算法来识别词语边界。例如,句子“我爱你,中国”会被分词为“我”、“爱”、“你...

    THINKPHP 中文分词处理类

    将军今天继续分享一款中文分词类库,无需其他扩展组件支持,这个类库基本能满足日常的分词,当然更精准的分词那你还是老老实实去研究分词算法和相关扩展吧。这个类库最重要一点,就是支持中文分词。 废话不多说,...

    vb 中文分词试验

    中文分词是自然语言处理(NLP)中的基础步骤,它涉及到将连续的汉字序列切分成有意义的词语,这对于信息检索、文本分析、机器翻译等应用至关重要。 在这个"vb 中文分词试验"项目中,开发者可能采用了以下几种技术或...

    机器学习sklearn中文分词

    机器学习sklearn中文分词学习记录

    HHM实战:使用HMM进行中文分词1

    在自然语言处理领域,中文分词是一项基础且关键的任务,它涉及到将连续的汉字序列分割成有意义的词语。本篇实战教程主要讲解如何使用隐马尔可夫模型(Hidden Markov Model,简称HMM)进行中文分词。 首先,我们要...

    中文分词+全文索引例子

    中文分词的任务就是将连续的汉字序列切分成具有独立语义的词语,如“中文分词”、“全文索引”等。常见的分词算法有基于词典的精确匹配方法、正向最大匹配法(BMM)、逆向最大匹配法(RMM)以及基于统计的分词方法,...

    自然语言处理分词_中文分词词库整理百度分词词库.txt

    由于中文语言没有明显的单词界限,所以中文分词在技术实现上比英文分词要复杂得多。 在中文分词过程中,分词词库起着关键的作用。分词词库是预先定义的一系列词汇的集合,它为分词系统提供了基本的词汇信息。分词...

    庖丁中文分词在VB.NET的使用例子方法

    庖丁是一款开源的中文分词工具,它基于统计语言模型和大规模语料库,能够高效准确地对中文文本进行切分,将连续的汉字序列分割成一个个具有独立意义的词语。庖丁支持多种分词模式,包括精确模式、全模式和搜索引擎...

    11款开放中文分词引擎测试数据

    中文分词是自然语言处理(NLP)领域中的关键技术,它是将连续的汉字序列切分成具有语义的词语单元,以便计算机能够理解和处理中文文本。在这个主题中,“11款开放中文分词引擎测试数据”提供了对不同开源分词工具...

    中文分词词典

    中文分词是自然语言处理(NLP)中的一个基础任务,其目的是将连续的汉字序列切分成具有语义合理性和完整性的词汇序列。与英文等西方语言通过空格自然分割不同,中文文本没有明确的词边界标识,因此中文分词对于后续...

    隐马尔科夫分词源代码

    在中文分词的场景下,状态可以表示为潜在的词语,而观测则对应于输入的字符序列。HMM假设状态序列是不可见的,我们只能看到由状态产生的观测序列。模型的目标是根据观测序列去推断最可能的状态序列。 HMM模型有三个...

    中文分词原代码(C++版)

    在实际的分词过程中,这段代码可能会先对输入的中文文本进行预处理,如去除标点符号、数字等非汉字字符,然后逐个词进行扫描,使用动态构建的词表记录出现的词汇,同时计算词频或权重。在处理完所有词汇后,再通过`...

    中文分词词库

    中文分词是自然语言处理(NLP)领域中的基础任务之一,主要目的是将连续的汉字序列切分成具有语义意义的词语序列。在中文文本处理中,由于汉字没有明显的空格分隔,分词显得尤为重要,它直接影响到后续的文本分析、...

    Delphi实现的简单中文分词

    中文分词是自然语言处理的基础步骤,因为中文没有明显的空格作为单词之间的分隔,所以需要通过特定的算法将连续的汉字序列分割成有意义的词语。这对于信息检索、文本分析、机器翻译等任务至关重要。 在Delphi中实现...

    friso中文分词1.6版

    **中文分词**是自然语言处理中的基础步骤,涉及到汉语文本的分析,将连续的汉字序列切分成具有语义的词汇单元。friso作为分词器,其功能在于将输入的中文文本分解为一系列有意义的词语,这对于后续的文本分析、信息...

    非常好用的中文分词,直接能用

    如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎'字。同样,对于一篇文章,先把所有的汉字都单独索引一次,并记录他们的位置。搜索过程中,也是先找'雅'字的所有文档,再找...

    编写简单的中文分词程序

    在IT行业中,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词汇单元,以便计算机能够理解和分析文本。本话题将聚焦于如何使用C#语言来编写一个简单的中文分词程序。C#是一种...

    中文分词的实现

    SCWS(Simple Chinese Word Segmentation)是一种轻量级的中文分词库,由Xunsearch团队开发,它能高效地将连续的汉字序列切分成具有语义的独立词汇。本篇文章将详细介绍如何利用SCWS扩展技术与PHP结合,实现搜索时的...

Global site tag (gtag.js) - Google Analytics