数据分析中的分词 - - ITeye博客

`

囧囧有神

浏览: 207693 次
性别:
来自: 杭州

最近访客更多访客>>

王子很想睡

lichuhui

mingtingjian

henri001

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

WHW1984：你那个疑惑3，不知道是否现在已经搞懂。是用3个参数：clie ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
WHW1984： "是客户端产生一个预主密码(premaster)，然 ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
windshome：回答博主的一个问题：客户端直接生成一个会话密钥，有可能存在随机 ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
Army： 28不是位，是28字节
深入研究SSL【第二章 part-1】-SSL握手协议的研究
hantangtieji：期待楼主把这个系列写完。
深入研究SSL【第二章 part-2】-SSL握手协议的研究

数据分析中的分词

博客分类：

数据挖掘&机器学习

阅读更多

数据分析的其中一个步骤是对输入内容分词，内容中可能含有垃圾词或

无意义词或分词分错的，因此用停用词词典和几个正则表达式进行过滤，

之前处理的量级大约是10G这个量级，处理速度挺好。

这次增加很多数据源，处理量级上升到1T级别，这些分析处理的速度明显感觉很慢，

通过性能分析发现用正则表达式来match，判断是否是垃圾词的方式性能比较差，

如果去除这些正则，处理速度能提高一倍，试着把各个正则转换成字符串查找，

比如

\\d+(\\.\\d)?\\d*([\u4e00-\u9fa5]*[a-zA-Z]*)

用来匹配数字+中文的词，比如0.99元 5公斤等，这些逻辑简化成词包含.或包含数字和中文就认为是垃圾词，

处理精度几乎没下降，但是速度相当于去掉正则。

分享到：

hadoop JOB的性能优化实践 | tf-idf的问题

2012-12-04 15:32
浏览 1541
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

中文分词数据集.zip: 在这个“中文分词数据集.zip”压缩包中，包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文分词的重要性和相关技术，以及如何利用这样的数据集来训练模型。首先，中文分词是中文文本理解和分析的...

baidu.rar_ baidu_dictionary_中文分词_中文分词词典_分词词典: 在文本分类和情感分析中，分词质量直接影响模型的性能；在机器翻译中，正确的分词能确保源语言和目标语言的词汇对应关系。总之，中文分词词典是中文自然语言处理的关键组件，而百度的分词词典以其高效和准确性在...

分词词库_中文分词词库最新整理（TXT格式）: 该文件主要包含了中文分词词库的内容，通过分析这些内容，我们可以了解到关于中文分词的基础知识、应用场景以及分词词库的重要性等方面的信息。 #### 中文分词简介中文分词是自然语言处理中的一个基础任务，它是...

中文分词词库整理.7z: 正确地识别出文本中的词汇有助于后续的语义理解、情感分析、机器翻译等任务。 2. **分词方法**：常见的分词方法包括基于规则的分词、基于统计的分词以及深度学习的分词。基于规则的方法依赖于词典和正则表达式，如...

lucene.NET 中文分词: - **使用内存词典**：在处理大量数据时，可以考虑将词典加载到内存中，减少磁盘I/O操作，提高分词速度。 - **批量处理**：对于大批量的文档，应尽量批量添加到索引，以利用内部优化减少开销。 - **缓存策略**：合理...

Py全国热门旅游景点数据分析300行(pandas数据处理jieba分词): 数据分析是现代商业和科学研究中不可或缺的一环，尤其是对于旅游行业来说，它能帮助相关企业更好地理解市场动态，优化服务，提升用户体验。在本项目中，我们将关注的是使用Python语言及其强大的数据处理库pandas，...

自然语言处理数据集（NLP）-200多万条中文分词词库.rar: 分词的准确性直接影响后续的语义分析、情感分析、信息抽取等任务的性能。常见的分词方法有基于词典的分词、基于统计的分词和深度学习驱动的分词。 1. 基于词典的分词：这种方法依赖于预先构建的词典，通过查找词典...

11款开放中文分词引擎测试数据: 通过这个测试数据集，我们可以了解不同分词引擎在实际应用中的优缺点，对于优化自然语言处理系统、提升文本分析任务的性能有着重要的指导意义。无论是学术研究还是实际开发，这些测试结果都能为选择合适的分词工具...

中文分词+关键字提取.zip: 中文分词和关键字提取是自然语言处理（NLP）领域中的两个重要技术，它们在文本分析、信息检索、机器翻译等多个应用中发挥着关键作用。本压缩包包含的"中文分词+关键字提取"资源提供了关于这两个技术的详细文档，以及...

中文分词中文切词分词: 本研究通过对中文分词技术的深入探讨，不仅提出了改进的分词算法，还针对中文文本中的歧义问题和命名实体识别问题进行了详细分析并提出了解决方案。通过实验验证，该系统在分词准确性、效率等方面均表现出色，具有较...

中文分词java实现: 总结来说，中文分词Java实现涉及了对中文文本的预处理、调用分词库进行分词和词性标注，以及后处理阶段的数据分析。通过这些工具，我们可以有效地处理中文文本，为后续的NLP任务提供基础数据。对于Java开发者而言，...

php中文实现分词搜索: 当我们面临中文数据的处理，特别是在搜索引擎或者信息检索系统中，分词搜索是必不可少的环节。"php中文实现分词搜索"这个主题涉及到的是如何利用PHP来处理中文文本并进行有效的分词，从而实现精准的搜索功能。首先...

易语言应用中文分词: 在易语言中实现中文分词是一项关键的技术，这涉及到自然语言处理（NLP）领域的知识。中文分词是将连续的汉字序列切分成具有独立语义的词语单元，它是中文文本处理的基础，对于信息检索、机器翻译、情感分析等应用至...

c# 中文分词 LUCENE IKAnalyzer: 6. **Lucene接口集成**：为了让C#分词器与Lucene接口兼容，需要理解并实现Lucene的分析器（Analyzer）接口，以便于在索引和查询过程中正确处理中文文本。 7. **性能优化**：在实际应用中，分词速度和资源占用是重要...

JAVA实现的中文分词程序: 在自然语言处理（NLP）领域，分词是预处理阶段的关键步骤，为后续的文本分析、信息检索、情感分析等任务打下基础。该程序包含了词典文件，词典是分词算法的核心部分，存储了大量的常用词汇及其相关信息。词典可能...

微软亚洲研究院中文分词语料库: 微软亚洲研究院中文分词语料库是为中文自然语言处理领域提供的重要资源，它在中文分词研究中扮演了核心角色。中文分词是中文文本处理的基石，因为中文没有像英文那样的空格来自然地划分单词，所以需要通过分词算法将...

中文分词算法程序: 总的来说，中文分词算法对于理解和处理中文文本至关重要，它在信息检索、机器翻译、情感分析等多个NLP应用中发挥着核心作用。理解并掌握有效的分词技术，是深入研究和应用NLP领域的基础。通过这个C++实现的项目，...

简单的中文分词程序（练习）: 标题 "简单的中文分词程序（练习）" 指向的是一个个人开发的、用于学习和实践的简单中文分词工具。...在实际应用中，了解和掌握中文分词的基本原理和技巧，对于处理和理解中文文本数据是非常重要的。

中文分词提取关键字: 在这个项目中，我们看到的是一个使用PHP实现的中文分词功能，这为处理中文文本的数据分析、信息提取、搜索引擎优化等场景提供了便利。 PHP是一种广泛使用的服务器端脚本语言，尤其在Web开发领域。将中文分词的功能...

中文分词mapreduce程序: 总结来说，这个“中文分词MapReduce程序”是一个基于Java的分布式分词工具，利用MapReduce模型对大量中文文本进行高效分词处理，通过分词将原始文本转化为可供分析的词汇单元，并在Reduce阶段完成词频统计。...

Global site tag (gtag.js) - Google Analytics