- 浏览: 1277455 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
该版本说明
1、只针对中英文混合分词
需要一些中文和英文连在一起
代码设置如下:
例子:
另一个版本效果,请看
http://www.agrlink.cn/cwss.jsp
欢迎大家测试,给予不好的地方,然后我完善它。
1、只针对中英文混合分词
需要一些中文和英文连在一起
代码设置如下:
Utility.SEPERATOP_E = "1234567890升级到";
例子:
worker work = new worker(); Utility.SEPERATOP_E = "1234567890升级到年月号M"; String result = work.stratAnalyzer("用户2010年10月11号开始申请宽带4M到10M"); System.out.println(用户/2010年10月11号/开始/申请/宽带/4M到10/);
另一个版本效果,请看
http://www.agrlink.cn/cwss.jsp
欢迎大家测试,给予不好的地方,然后我完善它。
- cwss.rar (1 MB)
- 下载次数: 162
发表评论
-
tomcat was unable to start within 45 seconds
2013-11-11 15:59 842原因一: -
Apache Commons Lang
2013-10-15 12:10 3170ArrayUtils public class Tes ... -
htmlunit form
2013-06-25 11:13 931Form提交 对于WEB应用,有着大量的表单,所以Html ... -
QQ微博登录步骤
2013-05-28 12:14 0QQ微博登录步骤: 1、验证帐号时,会访问一个地址。如下: ... -
jsoup
2013-05-22 23:37 1148import org.jsoup.Jsoup; import ... -
java 加密解密
2013-05-21 23:00 851import java.security.InvalidKey ... -
freemarket 对象应用篇(一)
2013-05-19 18:18 1049freemarket应用. 1.1:创建web工程testF ... -
中文数字转阿拉伯数字
2012-11-30 14:24 1804/** * @author loiy * ... -
标记:伪原创标题思路
2012-01-11 16:34 1303采用填词的办法进行伪 ... -
用JSmooth制作java jar文件的可执行exe文件教程(图文)
2012-01-05 01:09 8200下载完程序之后,运行 jsmoothgen.exe 1.进入“ ... -
多线程 Java.util.ConcurrentModificationException异常
2011-12-29 13:43 1531Iterator<Entry<String,B ... -
java 反序列化 抛出EOFException
2011-12-19 17:21 2261抛出这样的异常,一般情况下,是因为业务逻辑的问题。 如: 在没 ... -
一键安装双击运行——Java安装程序制作
2011-12-09 02:39 1337对于Java桌面应用来说,比较烦琐的就是安装部署问题,如:客户 ... -
Java开源运行分析工具
2011-11-15 15:10 1890FProfiler FProfiler是一个非常快的Java ... -
cwss 按照指定的字符进行切词
2011-11-15 09:37 1243cwss 按照指定的字符进行切词 在 Utility.SEPE ... -
cwss bug 修复
2011-11-07 09:50 894修复的BUG有如下: 1、当只有中文、字母和数字,没有任何其他 ... -
java 怎么读取细胞词库scel
2011-10-24 14:28 3125private void sogou(String pa ... -
今天遇到一个奇怪的问题
2011-04-28 11:55 1190想实现一个用户访问页面,得到用户的外网地址 在公司上。程序是没 ... -
在myeclipse6.5下统一全部JSP编码更改
2011-04-07 14:47 1467在平时我们新建一个JSP页面默认编码是"ISO885 ... -
pushlet 资料
2011-03-21 19:03 995标记一下!
相关推荐
混合分词是指在一段文本中,英文、数字和中文可以同时出现,并且都能被正确地识别和切分。 描述中提到的“常用的数量和人名的匹配”是指该工具包含了对常见数量词(如“一百万”、“二千五百”等)和人名的特殊处理...
2. 中英文混合处理:由于中英文混合文本的特殊性,算法需要同时处理中文和英文。在分词过程中,通常采用正向最大匹配(Forward Maximum Matching, FMM)或逆向最大匹配(Backward Maximum Matching, BMM)策略,确保...
IK中文分词器是一种广泛应用于中文文本处理领域的高效工具,其核心功能在于能够精准地识别并切割中文文本中的词汇单元,进而为后续的信息检索、自然语言处理等工作提供基础支持。本文将深入探讨IK分词器的工作原理,...
中文分词是自然语言处理中的一个基础任务,它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比,中文没有明显的单词界限,因此中文分词是进行后续自然语言处理任务(如文本分类、情感...
本文将深入探讨“人工智能_项目实践_分词词库_分词词库(中英文)”这一主题,以及与之相关的知识。 首先,我们要理解什么是分词。分词,即词语切分,是将连续的文本序列分解成有意义的词语单位的过程。在中文中,...
在现代中文文本中,这种混合使用的情况非常常见,如“iPhone 12 Pro Max”这样的词语,传统的分词器可能无法准确处理。而IK Analyzer 2012则能很好地识别并处理这类混合词,提高了分词的精确度,降低了误分词的可能...
中文分词器,正如其名,是专门针对中文文本进行分词操作的工具,它能够将连续的汉字序列分割成具有独立语义的词语。在中文语言环境中,由于没有明显的空格或者标点符号作为词与词之间的天然分隔,因此中文分词成为了...
汉字的组合也是变化多端,麻将这个项目希望能从汉字组合中发现汉语的秘密,为自然语言处理提供好的中文分词工具。 麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词,整个项目专为搜索...
IKAnalyzer是一个开源的中文分词器,基于Java语言开发,它是一个轻量级的中文分词工具包。IKAnalyzer自2006年12月推出1.0版本以来,已经发展到了2012版本。这个分词器最初是基于开源项目Lucene的词典分词和文法分析...
本文将深入探讨Java实现的分词技术,以及如何处理中英文混合字符文件,记录中文和英文字符的出现次数。 首先,我们要理解什么是分词。分词是将连续的文本按照语言的词汇规则进行切分,生成一个个单独的词汇单元,...
### IKAnalyzer中文分词器V2012使用手册知识点详解 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款开源的、基于Java语言开发的轻量级中文分词工具包。自2006年12月发布1.0版以来,已历经多次迭代,至2012版本时,它...
而文本分词技术则将文本切分为有意义的词汇单位,这对于中英文混合的文本尤为重要,因为中英语言在构词和句法上存在显著差异,分词算法需要能够适应这些不同的规则。 在描述中英文提取器时,我们得知用户仅需将含有...
特别地,在2012版本中,词典可以支持中文、英文和数字的混合词语。 分词效果示例反映了IKAnalyzer 2012的不同切分模式和效果。比如智能分词模式会将文本按照词性、词义划分出有意义的词语,而最细粒度分词模式会将...
庖丁分词支持词典分词、基于统计的分词以及混合分词模式,能够满足不同场景下的需求。它的特点包括高精度、高效率以及丰富的扩展性,适合在Lucene中进行中文文本的预处理。 三、集成庖丁分词到Lucene 1. 下载与安装...
- **用户词典扩展**:优化的词典存储机制,允许用户进行词典扩展,特别是在2012版本中,新增了对中文、英文、数字混合词语的支持,进一步提升了分词的准确性和灵活性。 ##### 分词效果实例 IKAnalyzer 2012提供...
1. **混合类别支持**:PKUseg设计之初就考虑到了中文和英文混合的场景,能同时处理两种语言的分词问题,这对于处理全球化信息或双语环境下的文本非常有用。 2. **高效性能**:PKUseg采用了深度学习模型,通过预训练...
中文分词是将连续的汉字序列切分成具有实际意义的词汇单元,这是中文信息处理的基础步骤,对提高搜索准确性和效率至关重要。ikanalyzer提供了一套完整的解决方案,包括分词库、字典管理和自定义扩展功能。 ik...
本文将深入探讨一种基于Lucene的词典机械中文分词方法,该方法采用了反向机械分词算法,尤其关注对数字、英文以及中英文数字混合词的特殊处理,旨在提高分词速度和准确性。 首先,反向机械分词算法是一种常用的中文...
中文分词是自然语言处理(NLP)中的一个基础任务,其目的是将连续的汉字序列切分成具有语义合理性和完整性的词汇序列。与英文等西方语言通过空格自然分割不同,中文文本没有明确的词边界标识,因此中文分词对于后续...