- 浏览: 64848 次
- 性别:
- 来自: 福州
最新评论
因项目需要对中文进行切词,故找同事要了段代码,现记录下来,以便日后使用
public static String detailData(String text) throws IOException{
String returnStr = "";
//创建分词对象
Analyzer anal = new IKAnalyzer(true);
StringReader reader = new StringReader(text);
//分词
TokenStream ts = anal.tokenStream("", reader);
CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
while(ts.incrementToken()){
returnStr = returnStr + term.toString()+"#@@#";
}
reader.close();
return returnStr;
}
另:附件1和2放在lib中,附件3放在src根目录
public static String detailData(String text) throws IOException{
String returnStr = "";
//创建分词对象
Analyzer anal = new IKAnalyzer(true);
StringReader reader = new StringReader(text);
//分词
TokenStream ts = anal.tokenStream("", reader);
CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
while(ts.incrementToken()){
returnStr = returnStr + term.toString()+"#@@#";
}
reader.close();
return returnStr;
}
另:附件1和2放在lib中,附件3放在src根目录
- IKAnalyzer3.2.3Stable.jar (1.1 MB)
- 下载次数: 2
- lucene-core-3.6.0.jar (1.5 MB)
- 下载次数: 1
- src根目录.zip (746 Bytes)
- 下载次数: 1
发表评论
-
Oracle的ORA-02292报错:违反完整性约束,已找到子记录
2019-09-20 10:59 849第一步就是找到子表的记录: select a.constrai ... -
expdp / impdp 用法详解
2017-07-31 14:12 721一 关于expdp和impdp 使用EXPDP和IM ... -
linux常用操作记录
2017-07-18 14:41 5561.获取账号权限 sudo -u orapub -i 2. ... -
visio2016下载以及永久激活
2017-07-17 16:55 7213下载地址:http://www.tc12580.com/vp. ... -
CGLIB介绍与原理
2017-07-14 15:07 603转载至:http://blog.csdn.net/zghwai ... -
cmd查看指定端口使用情况
2017-05-31 17:30 492netstat -ano|findstr 8080 数据含义 ... -
解决java连接SQLSERVER数据库之驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。错误:Could not gen
2017-04-02 22:52 3597操作系统win10 x64,sql2016 这个问题是JDK ... -
SQL Server2016企业版 附全版本key
2017-03-29 21:28 3550Microsoft SQL Server 2016是一个全面的 ... -
共用局域网同一个IP
2017-03-15 17:03 6481.先arp -a获取IP的MAC地址 2.本地连接-> ... -
sql删除重复数据
2017-01-09 10:49 409delete from [表名] where id not i ... -
Windows 2003服务器硬盘增加空间
2016-05-07 14:21 730大家都知道,windows服务器下面是无法直接将新升级的磁盘空 ... -
SQL2005数据库变成"可疑"的解决方法
2015-08-04 18:00 573DBName为数据库名 USE MASTER GO SP ... -
MongoDB可视化IDE(MongoVUE 1.6.9破解版)
2015-07-27 16:45 1350如题,仅作安装包备份 安装操作: 1.先安装Installe ... -
已成功加载 或删除WmiApRpl服务 解决方案
2015-06-01 13:45 2081来源 loadpref ID:1000 ... -
Java连接Access数据库(JDBC)
2015-05-29 10:06 983因项目需求,需要Access数据库,现将测试通过代码记录下来, ... -
Mongodb常用操作记录
2015-04-22 09:01 539安装:mongod --dbpath "C:\mon ... -
windows各版本序列号集合
2014-11-13 10:31 1210因经常使用,避免每次都上网到处找,在此做了集合(不定期更新) ... -
windows2003添加服务
2013-11-16 17:05 969因工作需要所以上网查 ... -
sql替换某字段内容的语句
2013-10-23 17:31 1825update 表名 set 字段名=replace(cast( ... -
带有OUTPUT的INSERT,DELETE,UPDATE使用方式记录
2013-08-21 11:00 7436因需求的关系需要将修改的值返回,故查了些资料发现了OUTPUT ...
相关推荐
在处理中文文本时,我们需要先将连续的汉字序列(句子或段落)正确地切分成一个个单独的词语,才能进行后续的分析和处理。 Lucene,作为一个开源的全文检索引擎,内置了对多种语言的分词支持,包括中文。它采用了...
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
总的来说,这个基于Java的中文自动分词项目为开发者和研究者提供了一个实践和学习自然语言处理技术的平台,无论你是想了解分词算法的内部工作原理,还是需要一个现成的分词工具,都能从中受益。通过深入研究源码,...
在IT领域,机械切词是自然语言处理中的一个重要环节,特别是在中文信息处理中。它涉及到如何将连续的汉字序列按照语义和语法合理地分割成一个个独立的词汇,这一过程称为分词。在这个小课程设计中,我们关注的是用...
本文提供了Java实现的双向匹配分词算法示例,包括了分词词典的存储、最大切词长度的设置、最大匹配分词算法等。代码如下: ```java package cn.nwsuaf.spilt; import java.io.BufferedReader; import java.io....
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...
中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义的词汇单元,对于理解和分析中文文本至关重要。本文将深入探讨基于Trie树、有向无环图(DAG)、动态规划以及Viterbi算法的中文...
深圳面试java常见笔试题 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)...错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两
IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IKanalyzer 分词小测试例子...
IKAnalyzer是一款广泛应用于Java环境中的开源中文分词器,它主要设计用于全文检索领域,能够对中文文本进行高效的分词处理。本文将介绍如何在不同版本的IKAnalyzer中实现相同的功能效果,即对中文文本进行分词。 ...
在此基础上,设计了一种基于规则的CARA中文地址解析算法,并且结合开源的MMSeg中文分词算法,使用Java平台实现了一套适用于地址模型的中文切词算法。CARA模型和中文切词算法的结合能够实现对地址信息的深入解析,...
由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字序列切分成具有独立含义的词语。这样才能有效地进行关键词匹配和索引。 在Lucene中,常见...
中文分词是自然语言处理中的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元,这对于搜索引擎来说至关重要,因为搜索引擎需要理解用户的查询并找到最相关的文档。在Solr6.x中,为了实现中文分词,我们可以...
IKAnalyzer是一款基于Java实现的全文检索分析器,它的主要功能是对中文文本进行有效的分词,以便于索引和查询处理。 中文分词是自然语言处理中的关键步骤,因为中文没有明显的词边界,而IKAnalyzer通过智能切词算法...
IK Analyzer是一个开源的、基于Java的中文分词工具,最初设计目标是为Lucene提供中文分词支持。随着版本的发展,IK已经成为了一个成熟的Elasticsearch中文分词解决方案。其核心功能包括: 1. **智能切词**:IK能够...
- 多种分词模式:包括精确模式、全模式、最短路径模式、关键词模式、智能切词模式等,适用于不同场景。 - 支持热更新:在运行过程中可以动态加载或更新词典,无需重启服务。 2. **Elasticsearch 使用分词器的重要...
Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而Paoding则是一款专门针对中文的高性能分词工具,能准确地对中文文本进行切词,提升搜索的精确度。 首先,Apache Solr 3.2是Solr的一个...
中文分词是全文检索中的关键步骤,因为中文没有像英文那样的空格来自然地划分单词,因此需要通过分词算法将连续的汉字序列切分成一个个有意义的词语。IKAnalyzer就是专门解决这个问题的工具,它能对中文文本进行有效...
中文分词是将连续的汉字序列切分成具有语义的词汇序列的过程。本研究提出了一种改进的RMM(Reverse Maximum Matching)中文分词算法,通过对词典存储格式和切词算法的优化,提高了分词的准确性和效率。 ##### 2.3 ...