庖丁解牛分词器增加对日文，韩文分词的支持问题 - eric_wyf - ITeye博客

`

eric_wyf

浏览: 45396 次

最近访客更多访客>>

ymmmt

SparkLQ

xuwenyan

chao591

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

庖丁解牛分词器增加对日文，韩文分词的支持问题

博客分类：

搜索相关

阅读更多

最近遇到一个问题，paoding切词的时候把日语和韩文的部分字符都过滤了。
原因是：

在用CJKKnife刀时执行该if (CharSet.isCjkUnifiedIdeographs(ch))语句进入到
CharSet类中的
public static boolean isCjkUnifiedIdeographs(char ch) {
return ch >= 0x4E00 && ch < 0xA000;
}
       因为0x4E00 -0xA000只属于CJK中日韩统一汉字范围，如：3040-309F：日文平假名 (Hiragana) 30A0-30FF：日文片假名 (Katakana) 不在此范围内所以返回的值为false，此时程序中index和offset的值是相等的所以直接
return LIMIT=-1返回从而日文的文字被过滤掉了。

解决办法：
public static boolean isCjkUnifiedIdeographs(char ch) {
//return ch >= 0x4E00 && ch < 0xA000;
return (ch >= 0x4E00 && ch < 0xA000) //中日韩统一表意文字
          ||(ch >= 0x3400 && ch < 0x4DBF) //中日韩统一表意文字扩充A
          //日文字符集
          ||(ch >= 0x3040 && ch < 0x309F) //日文平假名
          ||(ch >= 0x30A0 && ch < 0x30FF) //日文片假名
          ||(ch >= 0x31F0 && ch < 0x31FF) //片假名音标扩充
          //韩文字符集
    ||(ch >= 0xAC00 && ch < 0xD7AF) //朝鲜文音节
          ||(ch >= 0x1100 && ch < 0x11FF) //朝鲜文
          ||(ch >= 0x3130 && ch < 0x318F); //朝鲜文兼容字母
}

对于完整的CJK Unicode范围，可参考http://blog.163.com/eric_wyf@126/blog/static/2086536520101019104615122/

分享到：

c3p0 - JDBC3 Connection and Statement Po ... | 关于maven的一个好网站

2011-05-06 14:14
浏览 1408
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

庖丁解牛中文分词工具: "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的，其目的是为了优化和简化中文文本的处理流程，它支持版本号为2.0.4-alpha2，专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

paoding analysis 3.0.1 jar (庖丁解牛分词器): 由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译，使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明：先下载2.0.4的版本（h t t p : / ...

庖丁解牛分词源码: "庖丁解牛分词器"是一款著名的中文分词工具，源自开源社区，因其高效的性能和灵活的应用场景而广受欢迎。在深入理解其源码的过程中，我们可以了解到许多关于自然语言处理（NLP）和Java编程的知识点。 1. **中文分词...

庖丁解牛分词之自定义词库、庖丁解牛配置: "庖丁解牛分词"是一个针对中文文本的分词工具，它借鉴了中国古代庖丁解牛的故事，寓意对文本进行精细、深入的剖析。这个工具的主要目标是帮助开发者更准确地切分中文句子，提取关键信息，从而提升搜索效率或理解文本...

庖丁解牛，一种中文分词器: "庖丁解牛"分词器采用了先进的算法和技术来解决这个问题，包括基于词典的匹配、上下文信息分析以及统计学习方法等，使得它在处理中文文本时表现出了较高的准确性和效率。 "Lucene"是一个流行的开源全文搜索引擎库，...

庖丁解牛分词 java包: 这个工具包的名称形象地借用中国古代故事“庖丁解牛”，寓意对文本的精细处理，如同庖丁对牛肉的熟练分解。在Java开发中，分词是自然语言处理（NLP）的重要环节，它将连续的汉字序列拆分成有意义的词汇单元，为后续...

lucene中文分词（庖丁解牛）庖丁分词: 4. 分词处理：在索引文档时，先用庖丁分词器对中文文本进行分词，然后将分词结果转换成Lucene的Term对象，再添加到索引中。 5. 搜索优化：在搜索阶段，同样可以使用庖丁分词器对用户输入的查询进行预处理，提高搜索...

lucene3庖丁解牛中文分词器: “庖丁解牛”中文分词器是一款专为中文文本处理设计的工具，其名字来源于古代寓言故事，寓意对复杂问题的深入理解和熟练掌握。它在Lucene的基础上，针对中文特有的语法结构和词汇习惯，提供了更加符合中文语境的分词...

lucene 中文分词庖丁解牛: 3. Snowball Analyzer：基于Lucene的分词器，支持多国语言，但对中文支持有限，需配合其他中文分词库使用。 4. PKUAnnotator：北京大学开发的中文分词系统，具有较高的准确率和召回率。五、选择与优化不同的分词...

适用于lucene..5的庖丁解牛分词器: 可以适用于lucene3.5的庖丁解牛分词器jar包

sorlr + tomcat+ 庖丁解牛中文分词配置文档: 总结来说，这个配置文档应该包含了如何在Tomcat上部署Solr，以及如何配置Solr以使用庖丁解牛分词器进行中文处理的详细步骤。这对于需要处理大量中文数据的搜索应用开发者来说，是一份非常实用的参考资料。通过阅读...

庖丁解牛分词器jar包: Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。采用基于不限制个数的词典文件对文章...

庖丁解牛工具: “Lucene分词器”是"庖丁解牛工具"的一个重要组成部分。Apache Lucene是一个高性能、全文本搜索库，它是Java开发者常用来构建搜索引擎的工具。而"庖丁解牛"则为Lucene提供了针对中文的分词支持，使得开发者可以更好...

庖丁解牛jarbao: "庖丁解牛jarbao"是一个专为中文分词设计的工具，它的核心是"庖丁解牛中文分词器"。在Java开发环境中，它通常以jar包的形式提供，如"paoding-analysis - 3.1.jar"，这表明它是基于Java语言实现的，并且是版本3.1的...

中文分词庖丁解牛 2_0_0版本发布 - 企业应用: 【庖丁解牛 2_0_0版本】是一个专门针对中文分词的软件工具，其在企业应用中扮演着重要角色。中文分词是自然语言处理中的基础步骤，对于文本分析、信息检索、机器翻译等领域至关重要。在这个2_0_0版本的更新中，我们...

庖丁解牛分词时需要的高亮显示jar包: 庖丁解牛分词时需要的高亮显示jar包，高亮显示需要的jar包

Lucene 庖丁解牛分词法2.4版本jar包: 在实际应用中，例如建立一个新闻网站的全文检索系统，开发者可以利用"庖丁解牛分词法"对新闻内容进行预处理，将每篇新闻文本拆分成关键词，再用Lucene建立索引。当用户输入查询词时，系统将使用相同的分词逻辑进行...

Linux驱动开发庖丁解牛系类: "Linux驱动开发庖丁解牛系列"很可能是一个深入解析Linux驱动程序开发的教程或者一系列文档，旨在帮助开发者逐步理解并掌握这一复杂而重要的技术领域。 Linux驱动开发主要包括以下几个关键知识点： 1. **内核结构...

经典的庖丁解牛通达信主图指标通达信指标公式源码.doc: 标题“经典的庖丁解牛通达信主图指标通达信指标公式源码.doc”表明该资源是一份关于通达信指标公式的经典实现，名称“庖丁解牛”来自中国古典小说《庄子》，指的是一位名叫庖丁的厨师，善于解牛，象征着该指标公式的...

lucene Analyzer 庖丁解牛中文分词: 词典包含了大量已知的词语，分词器会根据词典来识别出连续的字符序列是否为一个完整的词语。词典的大小和质量直接影响了分词的准确性。Lucene允许用户自定义词典，以适应特定领域的分词需求。 2. **模糊匹配和歧义...

Global site tag (gtag.js) - Google Analytics