`
囧囧有神
  • 浏览: 206622 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

数据分析中的分词

 
阅读更多

数据分析的其中一个步骤是对输入内容分词,内容中可能含有垃圾词或

无意义词或分词分错的,因此用停用词词典和几个正则表达式进行过滤,

之前处理的量级大约是10G这个量级,处理速度挺好。

 

这次增加很多数据源,处理量级上升到1T级别,这些分析处理的速度明显感觉很慢,

通过性能分析发现用正则表达式来match,判断是否是垃圾词的方式性能比较差,

如果去除这些正则,处理速度能提高一倍,试着把各个正则转换成字符串查找,

比如

 

\\d+(\\.\\d)?\\d*([\u4e00-\u9fa5]*[a-zA-Z]*)

用来匹配数字+中文的词,比如0.99元 5公斤等,这些逻辑简化成词包含.或包含数字和中文就认为是垃圾词,

处理精度几乎没下降,但是速度相当于去掉正则。

分享到:
评论

相关推荐

    中文分词数据集.zip

    在这个“中文分词数据集.zip”压缩包中,包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文分词的重要性和相关技术,以及如何利用这样的数据集来训练模型。 首先,中文分词是中文文本理解和分析的...

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    在文本分类和情感分析中,分词质量直接影响模型的性能;在机器翻译中,正确的分词能确保源语言和目标语言的词汇对应关系。 总之,中文分词词典是中文自然语言处理的关键组件,而百度的分词词典以其高效和准确性在...

    分词词库_中文分词词库最新整理(TXT格式)

    该文件主要包含了中文分词词库的内容,通过分析这些内容,我们可以了解到关于中文分词的基础知识、应用场景以及分词词库的重要性等方面的信息。 #### 中文分词简介 中文分词是自然语言处理中的一个基础任务,它是...

    lucene.NET 中文分词

    - **使用内存词典**:在处理大量数据时,可以考虑将词典加载到内存中,减少磁盘I/O操作,提高分词速度。 - **批量处理**:对于大批量的文档,应尽量批量添加到索引,以利用内部优化减少开销。 - **缓存策略**:合理...

    中文分词词库整理.7z

    正确地识别出文本中的词汇有助于后续的语义理解、情感分析、机器翻译等任务。 2. **分词方法**:常见的分词方法包括基于规则的分词、基于统计的分词以及深度学习的分词。基于规则的方法依赖于词典和正则表达式,如...

    11款开放中文分词引擎测试数据

    通过这个测试数据集,我们可以了解不同分词引擎在实际应用中的优缺点,对于优化自然语言处理系统、提升文本分析任务的性能有着重要的指导意义。无论是学术研究还是实际开发,这些测试结果都能为选择合适的分词工具...

    中文分词+关键字提取.zip

    中文分词和关键字提取是自然语言处理(NLP)领域中的两个重要技术,它们在文本分析、信息检索、机器翻译等多个应用中发挥着关键作用。本压缩包包含的"中文分词+关键字提取"资源提供了关于这两个技术的详细文档,以及...

    中文分词中文切词分词

    本研究通过对中文分词技术的深入探讨,不仅提出了改进的分词算法,还针对中文文本中的歧义问题和命名实体识别问题进行了详细分析并提出了解决方案。通过实验验证,该系统在分词准确性、效率等方面均表现出色,具有较...

    中文分词java实现

    总结来说,中文分词Java实现涉及了对中文文本的预处理、调用分词库进行分词和词性标注,以及后处理阶段的数据分析。通过这些工具,我们可以有效地处理中文文本,为后续的NLP任务提供基础数据。对于Java开发者而言,...

    易语言应用中文分词

    在易语言中实现中文分词是一项关键的技术,这涉及到自然语言处理(NLP)领域的知识。中文分词是将连续的汉字序列切分成具有独立语义的词语单元,它是中文文本处理的基础,对于信息检索、机器翻译、情感分析等应用至...

    微软亚洲研究院中文分词语料库

    微软亚洲研究院中文分词语料库是为中文自然语言处理领域提供的重要资源,它在中文分词研究中扮演了核心角色。中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将...

    JAVA实现的中文分词程序

    在自然语言处理(NLP)领域,分词是预处理阶段的关键步骤,为后续的文本分析、信息检索、情感分析等任务打下基础。 该程序包含了词典文件,词典是分词算法的核心部分,存储了大量的常用词汇及其相关信息。词典可能...

    中文分词算法程序

    总的来说,中文分词算法对于理解和处理中文文本至关重要,它在信息检索、机器翻译、情感分析等多个NLP应用中发挥着核心作用。理解并掌握有效的分词技术,是深入研究和应用NLP领域的基础。通过这个C++实现的项目,...

    简单的中文分词程序(练习)

    标题 "简单的中文分词程序(练习)" 指向的是一个个人开发的、用于学习和实践的简单中文分词工具。...在实际应用中,了解和掌握中文分词的基本原理和技巧,对于处理和理解中文文本数据是非常重要的。

    中文分词 提取关键字

    在这个项目中,我们看到的是一个使用PHP实现的中文分词功能,这为处理中文文本的数据分析、信息提取、搜索引擎优化等场景提供了便利。 PHP是一种广泛使用的服务器端脚本语言,尤其在Web开发领域。将中文分词的功能...

    中文分词mapreduce程序

    总结来说,这个“中文分词MapReduce程序”是一个基于Java的分布式分词工具,利用MapReduce模型对大量中文文本进行高效分词处理,通过分词将原始文本转化为可供分析的词汇单元,并在Reduce阶段完成词频统计。...

    jcseg java中文分词

    5. **歧义处理**:mmseg算法能够有效地解决中文分词中的歧义问题,提高分词质量。 **在实际应用中的案例** Friso在多个领域都有实际应用,比如: - **搜索引擎**:搜索引擎需要对网页内容进行分词,以便进行...

    贝叶斯网络概率中文分词算法

    总的来说,贝叶斯网络概率中文分词算法利用了贝叶斯定理和条件概率,通过学习大量的文本数据,建立了词汇之间的概率关系模型,从而在新的文本中进行有效的分词。这种算法在处理中文文本时,既能考虑词汇的独立性,又...

    藏拙简易中文分词服务器

    这对于研究人员、开发者或数据分析人员来说,极大地简化了他们的工作流程,节省了时间和精力。 此外,"藏拙"一词可能代表了开发者团队的谦逊态度,他们可能希望通过低调的名字传达出虽然产品简单,但功能实用且可靠...

    C#中文分词源码

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成有意义的词语单元,这对于信息检索、文本分析、机器翻译等多个应用场景至关重要。"C#中文分词源码"是一个专门针对C#编程语言...

Global site tag (gtag.js) - Google Analytics