`
小网客
  • 浏览: 1243572 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

扩展词库构建设计方案

 
阅读更多

背景:

我们可以看到蓝天和白云几乎是同时出现的,那么他们的关联就比较强,这样我们就认为蓝天是白云的扩展词,这样在做文本计算的时候可以强关联替换,类似同义词一样,来弥补文本挖掘的不足。

 

技术背景:

基于Hadoop的MR

 

分析:

1.基于常用文本进行切词从而组建扩展词;

2.基于tf计算的时候要考虑词频的影响;

3.扩展词库是否需要考虑支持度和置信度;

4.约定每个文本切词完成之后为一个事务;

 

 

方案:

1.基于文本切词计算tf;

2.计算任意两词之间的距离,计算公式为:d(w1,w2)=|tf1-tf2|;

3.扫描所有的事务,累加距离;

4.只考虑支持度和距离阀值,低于支持度阀值的忽略,高于距离阀值的忽略;

5.基于w1,统计其扩展词库,并基于距离排序;

 

 

0
3
分享到:
评论

相关推荐

    王码大一统专业版新世纪词库

    《王码大一统专业版新世纪词库》是一款专为汉字输入法开发设计的重要资源库,它涵盖了GB18030字符集中的全部27533个汉字以及近五万个词组,为输入法开发者提供了丰富的词汇基础。GB18030是中国国家标准的一种汉字...

    Lucene3.0.3+盘古分词(证实可用,可指定使用自己的词库文件).rar

    通过替换或扩展默认词库,可以提升分词的针对性和准确性,进一步优化搜索结果。 集成过程通常包括以下几个步骤: 1. 将提供的DLL文件引入项目,确保Lucene和盘古分词接口的正确引用。 2. 初始化盘古分词器,并指定...

    铭感词相关词库和脚本

    "铭感词相关词库和脚本"这个项目就是针对这一需求而设计的。它包含了用于检测和过滤敏感词汇的工具,以防止不适当或违规内容的传播。接下来,我们将详细探讨其中的关键知识点。 首先,我们要了解什么是铭感词。铭感...

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库.zip

    IK分词器支持自定义词典,可以动态扩展,且具有很好的分词效果,广泛应用于日志分析、搜索引擎构建等领域。 3. **ANSJ分词器**:ANSJ (Advanced NLP Simple Java) 是由国内开发者开发的一款高效、智能的中文分词...

    pinyin4j(解决多音字问题源码)

    因此,开发者在使用过程中可能需要根据实际需求,对词库进行扩展和优化。这通常涉及对词频数据的收集和分析,以及对pinyin4j源码的深入理解和定制。例如,开发者可以引入更全面的汉语词典数据,或者基于特定领域文本...

    中文分词库 IKAnalyzer For Lucene 5.2.1(适用Lucene 5.2.1)

    IKAnalyzer是一款开源的中文分词库,专门设计用于配合Apache Lucene这个全文检索引擎进行中文处理。这款分词器在处理中文文本时,能够高效准确地进行词汇切分,为基于Lucene构建的搜索应用提供强大的支持。Lucene ...

    网页爬虫解决方案.pdf

    6. **高可靠性与扩展性**:Hadoop设计为高可靠的系统,能自动备份数据,处理节点故障,且可轻松扩展到大规模集群,适应数据增长。 7. **高效与容错性**:Hadoop能在节点间动态移动数据,保持系统平衡,处理速度快,...

    elasticsearch-analysis-ik-5.2.0.rar

    总之,Elasticsearch-analysis-ik-5.2.0的MySQL动态词库加载功能为应对高动态性的中文数据环境提供了解决方案。通过合理利用这一特性,我们可以构建出更智能、更适应实时变化的搜索系统。在实际应用中,开发者需要...

    一种基于本体语义的云制造服务供需智能匹配方法.pdf

    本研究提出的供需智能匹配方案设计,包括供需智能匹配模型和匹配原理图,详细说明了实现方法的数据流向和工作流程。在模型中,服务资源一旦发布,就会存储在云数据库并与其交互,用户输入需求信息后,会经过语义词库...

    基于Lucene和Heritrix技术搜索引擎的设计与实现.pdf

    - **信息解析与词库构建**:抓取到的网页信息需经过解析,提取出文本内容,并利用Lucene构建词库和索引。 - **数据处理与索引优化**:对提取的文本信息进行预处理,如去除停用词、进行词干提取等,以提高检索效率和...

    LatinIME,安卓工作室.zip

    拉丁IME(LatinIME)是Android操作系统中的一个开源输入法引擎,专为键盘输入设计,支持多种语言,包括但不限于英语、法语、德语、西班牙语等拉丁字母为基础的语言。这个项目由Google贡献并维护,旨在提供高效、用户...

    基于Java的全文检索引擎简介

    自那时起,Lucene得到了广泛的社区支持和开发,逐渐成长为一个成熟稳定的全文检索解决方案。 #### 二、全文检索实现机制 **Lucene与数据库索引的比较**: - **索引数据源**: 在Lucene中,索引数据源为`Document`,...

    最新版 elasticsearch-analysis-ik-7.11.1.zip

    此外,IK还支持自定义扩展词库,可以灵活地添加或删除词汇,适应不断变化的语言环境。 在7.11.1版本中,我们可以看到一些关键的依赖库,如httpclient-4.5.2.jar、httpcore-4.4.4.jar、commons-codec-1.9.jar和...

    基于Sphinx+MySql+Python的站内搜索引擎的设计与实现.pdf

    根据给定文件信息,以下是对标题、描述、标签及部分...文章中提到的技术点不仅涉及到了搜索引擎的构建原理,还包括了对中英文分词技术的探讨,以及如何在现有的网站架构上进行优化和扩展,以满足高效站内搜索的需求。

    windows输入法生成器

    3. 词库构建:用户可以根据个人习惯或者特定领域词汇创建自己的词库,提高输入效率。 4. 输入规则设定:用户可以定义不同的输入规则,比如简拼、全拼、笔画输入等,以适应不同的输入习惯。 5. 用户界面个性化:...

    基于PHP_MySQL的古汉语语料库系统的设计与实现.pdf

    为了解决这些难题,本文提出了一种基于PHP和MySQL技术构建古汉语语料库系统的设计方案,并对其具体实现进行了详细阐述。 古汉语语料库系统的主要功能是实现古汉语资料的数字化存储与检索。系统分为三个核心部分:...

    基于单片机的智能语音识别系统设计毕业设计论文

    本毕业设计旨在构建一个基于单片机的智能语音识别系统,该系统能够通过识别和理解语音信号,将其转化为相应的文本或指令,以实现对家用电器的智能控制。 核心硬件组件包括LD3320语音识别芯片和STC10L08XE单片机。LD...

    Android 类似搜狗输入法android源码-IT计算机-毕业设计.zip

    - 创新与扩展:提出可能的改进方案或新的功能添加。 总之,这个项目为Android开发的学习者提供了一个实践和研究的宝贵资源,通过深入研究源码,不仅可以提升编程技能,也能对Android系统的深层运作有更深刻的理解。

    基于PHP的闻名搜索 PHP weenSearch简体版.zip

    总之,PHP weenSearch简体版是一个专门为中文环境设计的搜索引擎解决方案,它利用PHP的强大力量和灵活性,为用户提供高效、便捷的搜索体验。通过深入研究和应用,开发者可以定制化这个系统以满足特定的搜索需求,...

Global site tag (gtag.js) - Google Analytics