对于中文分词的简单思考 - edwardpro - ITeye博客

`

edwardpro

浏览: 317942 次
性别:

最近访客更多访客>>

fxstiandi

snai_user

1040979038

lost-java

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

u010503822：不懂这个是否是你需要的// map转Json数据 json转 ...
gson使用感受
亚飞正传：您好,你以前是在PChome工作的?
<![CDATA[谈谈PHP为什么不支持重载和多态]]>
亚飞正传：您好,你以前是在PChome工作的?
<![CDATA[谈谈PHP为什么不支持重载和多态]]>
wangluo19：对T解释的很清楚，以前看到java源码中的T就晕了，现在好了明 ...
JAVA学习笔记之泛型接口
huangfoxAgain：不错！！！
JAVA学习笔记之泛型接口

对于中文分词的简单思考

博客分类：

IT快语

阅读更多

受了那么大的教训怎么也应该好好总结下了，下面随便说说吧。

1 词库问题
词库在分词中会非常重要，而且量比较大，这是一个很大的效率瓶颈，我个人觉得在这里应该做到如下的：

a）多级分词比如字母+单字的两级索引这样效率稍高
b）排除重复和陷阱，重复不多解释了，陷阱，我认为就是那种包含词，包含词的坏处很可能造成正确失效
c）过长的词组的强制拦截，长词是毫无意义的，比如中华人民共和国，我认为这不是一个好词条，应该是中华人民共和国这几个才对，如果用户的词库中包含过长的就应该强制处理

2 检错要求
JE分词的两大问题：1对于特殊字符有比较大的问题，这个问题一开始还没有发现，但在大规模抓取之后就非常严重了 2 错误的分词。
我个人觉得，分词一旦有错误完全应该选择单字法，这对于查询是有意义的，其实这类似与cjk的二分法看似愚蠢，但仔细看看其实却拥有不错的效果（效果是第一位的）

3 多样的接口
主要针对分词文件 db 等等多种方式导入这是必须的。

接下来几天内抓紧实现下看看，不过在这里要好好地鄙视下JE分词的，虽然我是偷懒了，但这个分词的能力实在。。。不多说了，好多事情要做。

分享到：

喝酒这回事 | 今天人丢大了

2007-08-16 16:01
浏览 1200
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

简单的中文分词程序（练习）: 标签 "中文分词" 是关键点，中文分词是将连续的汉字序列切分成有意义的词语，这是处理中文文本的基础步骤，对于信息检索、情感分析、机器翻译等任务至关重要。常见的中文分词算法有基于词典的匹配方法、统计模型如隐...

《Python 高级编程》课程信息化教学设计初探——以“Jieba 库应用”课程单元为例.zip: Jieba是一个流行的Python库，专门用于中文文本处理，如分词、关键词提取等，对于学习Python编程的中国学生来说尤其重要。首先，我们要理解Jieba库的核心功能。Jieba库为Python程序员提供了方便的中文分词工具，它...

wukong-robot-master.zip: 悟空机器人，以其独特的名字“wukong-robot”命名，是一个极具创新性的开源项目，致力于打造简单、灵活且优雅的中文语音对话机器人，同时也可能成为全球首个支持脑机交互的开源智能音箱。这个项目不仅体现了人工智能...

英语写作有技巧作文.doc: 考生应当花时间理解题目要求，站在交际的角度思考如何表达，而不是匆匆下笔。审题不仅关乎主题的理解，也涉及到文章的结构和内容布局。其次，列提纲是组织思路的有效方法。在写作前列出主要观点和支撑细节，可以...

宁夏六盘山市高一英语下学期第二次月考试题(扫描版，无答案) 试题.doc: 2. **语法**：包括时态（一般现在时、一般过去时、一般将来时等）、语态（主动语态和被动语态）、句子结构（简单句、并列句、复合句）、非谓语动词（不定式、动名词、分词）等。 3. **阅读理解**：训练学生的快速...

对PHP新手的一些建议(PHP学习经验总结): 37. **中文分词**: 理解中文分词的概念，并尝试编写一个简单的中文分词程序，或者使用现有的分词库。以上建议涵盖了PHP开发中常见的多个方面，包括环境设置、代码编写习惯、安全性意识、技术细节处理以及项目实施...

搜索引擎介绍: 3. **预处理**：包括文本提取、中文分词、去除停词、消除噪音、去重、正向索引、倒排索引、链接关系计算、特殊文件处理等多个步骤，以确保检索结果的质量与相关性。 4. **排名**：当用户输入关键词后，搜索引擎调用...

11.我是一只小虫子【第1课时】: 对于中文而言，最常用的编码方式之一就是Unicode，它支持世界上几乎所有语言的文字。了解字符编码的基础知识对于编程人员来说是非常重要的，因为它关系到如何处理不同语言的文字数据。 ### 文本处理技术在IT领域...

2020_2021学年新教材高中英语Unit2HealthyLifestyleSectionBLearningAboutLanguage课后习题含解析新人教版选择性必修第三册20210127198: - "disturb" 的过去分词形式 "disturbed"，表示医生们对只有不到30%的病人康复感到不安。 - "special" 在此指专科医生，用 "specialist" 表示执行脑部扫描的专家认为Tim的存活机会渺茫。 - "consult" 的名词形式 ...

2020_2021学年新教材高中英语Unit2HealthyLifestyleSectionBLearningAboutLanguage习题含解析新人教版选择性必修第三册202102011149: - "disturb" 的过去分词 "disturbed" 表示医生们对只有不到30%的病人康复感到不安。 - "special" 在这里指的是 "专科医生"，即 "specialist"，执行大脑扫描的专家认为Tim的生存机会很小。 - "consult" 转化为名词...

Global site tag (gtag.js) - Google Analytics