只针对中英文混合分词的中文分词器 - Loiy - ITeye博客

`

lzj0470

浏览: 1292007 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

水野哲也：不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8"
caobo_cb： import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇
caobo_cb：你好 Util包没有
[ java版]新浪微博之ruquest_token篇
小桔子：你好！我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧
donghustone：谢谢大神！
用JSmooth制作java jar文件的可执行exe文件教程(图文)

只针对中英文混合分词的中文分词器

博客分类：

java

阅读更多

该版本说明
1、只针对中英文混合分词

需要一些中文和英文连在一起
代码设置如下：

Utility.SEPERATOP_E = "1234567890升级到";

例子:

worker work = new worker();
Utility.SEPERATOP_E = "1234567890升级到年月号M";
String result = work.stratAnalyzer("用户2010年10月11号开始申请宽带4M到10M");
System.out.println(用户/2010年10月11号/开始/申请/宽带/4M到10/);

另一个版本效果，请看
http://www.agrlink.cn/cwss.jsp

欢迎大家测试，给予不好的地方，然后我完善它。

cwss.rar (1 MB)
下载次数: 162

分享到：

SQL注入攻击的种类和防范手段 | 解决cmd命令控制台窗口一闪而过运行后就消 ...

2011-12-02 17:28
浏览 4902
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

支持英文数字中文混合分词-实现很多功能非常强大！: 混合分词是指在一段文本中，英文、数字和中文可以同时出现，并且都能被正确地识别和切分。描述中提到的“常用的数量和人名的匹配”是指该工具包含了对常见数量词（如“一百万”、“二千五百”等）和人名的特殊处理...

中英文分词算法: 2. 中英文混合处理：由于中英文混合文本的特殊性，算法需要同时处理中文和英文。在分词过程中，通常采用正向最大匹配（Forward Maximum Matching, FMM）或逆向最大匹配（Backward Maximum Matching, BMM）策略，确保...

IK中文分词器原理: IK中文分词器是一种广泛应用于中文文本处理领域的高效工具，其核心功能在于能够精准地识别并切割中文文本中的词汇单元，进而为后续的信息检索、自然语言处理等工作提供基础支持。本文将深入探讨IK分词器的工作原理，...

分词词库_中文分词词库最新整理（TXT格式）: 中文分词是自然语言处理中的一个基础任务，它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比，中文没有明显的单词界限，因此中文分词是进行后续自然语言处理任务（如文本分类、情感...

人工智能_项目实践_分词词库_分词词库（中英文）: 本文将深入探讨“人工智能_项目实践_分词词库_分词词库（中英文）”这一主题，以及与之相关的知识。首先，我们要理解什么是分词。分词，即词语切分，是将连续的文本序列分解成有意义的词语单位的过程。在中文中，...

中文分词器IK Analyzer 2012: 在现代中文文本中，这种混合使用的情况非常常见，如“iPhone 12 Pro Max”这样的词语，传统的分词器可能无法准确处理。而IK Analyzer 2012则能很好地识别并处理这类混合词，提高了分词的精确度，降低了误分词的可能...

中文分词器: 中文分词器，正如其名，是专门针对中文文本进行分词操作的工具，它能够将连续的汉字序列分割成具有独立语义的词语。在中文语言环境中，由于没有明显的空格或者标点符号作为词与词之间的天然分隔，因此中文分词成为了...

麻将：开源中文分词工具包，中文分词Web API，Lucene中文分词，中英文混合分词: 汉字的组合也是变化多端，麻将这个项目希望能从汉字组合中发现汉语的秘密，为自然语言处理提供好的中文分词工具。麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词，整个项目专为搜索...

IKAnalyzer中文分词器V2012使用手册_20190806.pdf: IKAnalyzer是一个开源的中文分词器，基于Java语言开发，它是一个轻量级的中文分词工具包。IKAnalyzer自2006年12月推出1.0版本以来，已经发展到了2012版本。这个分词器最初是基于开源项目Lucene的词典分词和文法分析...

fenci_java_分词_: 本文将深入探讨Java实现的分词技术，以及如何处理中英文混合字符文件，记录中文和英文字符的出现次数。首先，我们要理解什么是分词。分词是将连续的文本按照语言的词汇规则进行切分，生成一个个单独的词汇单元，...

IKAnalyzer中文分词器V2012使用手册: ### IKAnalyzer中文分词器V2012使用手册知识点详解 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款开源的、基于Java语言开发的轻量级中文分词工具包。自2006年12月发布1.0版以来，已历经多次迭代，至2012版本时，它...

中英文提取器: 而文本分词技术则将文本切分为有意义的词汇单位，这对于中英文混合的文本尤为重要，因为中英语言在构词和句法上存在显著差异，分词算法需要能够适应这些不同的规则。在描述中英文提取器时，我们得知用户仅需将含有...

IKAnalyzer中文分词器v2012使用手册.pdf: 特别地，在2012版本中，词典可以支持中文、英文和数字的混合词语。分词效果示例反映了IKAnalyzer 2012的不同切分模式和效果。比如智能分词模式会将文本按照词性、词义划分出有意义的词语，而最细粒度分词模式会将...

lucene中文分词（庖丁解牛）庖丁分词: 庖丁分词支持词典分词、基于统计的分词以及混合分词模式，能够满足不同场景下的需求。它的特点包括高精度、高效率以及丰富的扩展性，适合在Lucene中进行中文文本的预处理。三、集成庖丁分词到Lucene 1. 下载与安装...

Delphi实现的简单中文分词v1.1: 此外，“并加入了非中文的支持”，意味着此系统不仅能处理纯中文文本，还能够识别和处理包含英文或其他非中文字符的混合文本，扩大了其适用范围。根据提供的标签，我们可以推测这个项目包含了以下关键元素： 1. **...

Lucene4.0 IK分词器使用pdf: - **用户词典扩展**：优化的词典存储机制，允许用户进行词典扩展，特别是在2012版本中，新增了对中文、英文、数字混合词语的支持，进一步提升了分词的准确性和灵活性。 ##### 分词效果实例 IKAnalyzer 2012提供...

PKUseg 混合类别分词工具包: 1. **混合类别支持**：PKUseg设计之初就考虑到了中文和英文混合的场景，能同时处理两种语言的分词问题，这对于处理全球化信息或双语环境下的文本非常有用。 2. **高效性能**：PKUseg采用了深度学习模型，通过预训练...

分词器ikanalyzerforsolr7.x.x: 中文分词是将连续的汉字序列切分成具有实际意义的词汇单元，这是中文信息处理的基础步骤，对提高搜索准确性和效率至关重要。ikanalyzer提供了一套完整的解决方案，包括分词库、字典管理和自定义扩展功能。 ik...

支持lucene的词典机械中文分词: 本文将深入探讨一种基于Lucene的词典机械中文分词方法，该方法采用了反向机械分词算法，尤其关注对数字、英文以及中英文数字混合词的特殊处理，旨在提高分词速度和准确性。首先，反向机械分词算法是一种常用的中文...

Global site tag (gtag.js) - Google Analytics