- 浏览: 316078 次
- 性别:
- 来自: 重庆
文章分类
- 全部博客 (286)
- 设计模式 (14)
- spring (5)
- 开发工具 (12)
- java (19)
- apache.commons工具 (7)
- ibaits (5)
- extjs4.0 (4)
- 数据库 (2)
- spring工具类 (2)
- jquery1.8 (32)
- 杂记 (1)
- linux (2)
- Quart (1)
- springMVC (2)
- webservice (1)
- oracle (5)
- dwr (6)
- jbmp3 (27)
- lucene3.5 (27)
- javascript (18)
- hibernate3.3.2 (27)
- spring事务管理 (10)
- nio (2)
- strust2 (3)
- jvm (7)
- jquery-easyui-1.2.6 (22)
- 多线程 (14)
- maven (3)
- 常用正则表达式 (4)
最新评论
-
HF_SKY000:
请问:
一、能否提供一下密钥库文件的生成方法?
二、密钥库的密 ...
Java sslSocket 聊天实例
中文分词器 :
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库()
1、导入包(有两个包:1、带dic,2、不带dic)
如果使用不带dic的,得自己指定词库位置
2、创建的时候使用MMSegAnalyzer分词器
Analyzer a = new MMSegAnalyzer(new File("D:\\tools\\javaTools\\lucene\\mmseg4j-1.8.5\\data"));
发表评论
-
二十七、Luence在项目中运用
2012-12-26 15:03 1099public class LuceneContext { ... -
二十六、solr的基本使用
2012-12-26 10:26 962public class Message { p ... -
二十五、solr与tomcat的整合
2012-12-25 13:52 10531、solr是全文搜索服务器,专门用户管理索引的。 2 ... -
二十四、通过NRTManager和SearchManager实现近实时搜索
2012-12-21 11:35 1349是否进行实时搜索 实时搜索(近实时搜索) ... -
二十三、高亮显示
2012-12-20 09:24 1011public void lighter01() { ... -
二十二、Tika
2012-12-20 09:24 967Tika是2008年才产生的一个apache的项目,主要用于打 ... -
二十一、Luke
2012-12-20 09:24 814luke是一个查询索引的工具,使用时必须注意:版本要与luce ... -
二十、自定义过滤器
2012-12-20 09:23 873有的应用有些要求,对于某类型的内容即使满足条件了,但是也不 ... -
十七、搜索过滤
2012-12-20 09:23 637public void searcherByFilter(St ... -
十九、自定义QueryParser
2012-12-19 16:28 1224原因: 1、对于某些Quer ... -
十八、自定义评分
2012-12-19 16:18 792public class MyCustomScoreProvi ... -
十六、搜索排序
2012-12-19 12:14 1032public void searcherBySort(Stri ... -
十五、实现简单同义词分词器
2012-12-19 11:41 1259public interface SamewordContex ... -
十三、自定义Stop分词器
2012-11-28 13:42 764import java.io.Reader; impor ... -
十二、Attribute
2012-11-28 13:20 827Attribute : ... -
十一、分词器的核心类
2012-11-28 13:12 906Analyzer : SimpleAnalyz ... -
十、分页搜索
2012-11-27 17:30 880分页查询有两种实现方式: 1、再查询 ... -
九、Queryparser
2012-11-27 17:24 1002Mike 默认域包含mike Mi ... -
八、其他搜索Query
2012-11-27 10:30 666TermRangeQuery : 字母范围搜索 ... -
七、搜索的简单实现(TermQuery)
2012-11-26 17:12 1004TermQuery只能精确匹配字符串(包括分词后的字符串,不 ...
相关推荐
### IK中文分词器原理详解 #### 一、概述 IK中文分词器是一种广泛应用于中文文本处理领域的高效工具,其核心功能在于能够精准地识别并切割中文文本中的词汇单元,进而为后续的信息检索、自然语言处理等工作提供基础...
30万 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.txt,四十万汉语大词库.txt,四十万可用搜狗txt词库.txt,搜狗词库方法.txt,五笔...
6. `四十万可用搜狗txt词库.txt`:搜狗是一个知名的中文输入法,它的词库非常丰富,此文件可能是从搜狗词库中提取的40万个词汇,适用于扩展基本的分词词库,尤其对于处理日常口语和网络用语非常有用。 在实际应用中...
综上所述,分词算法词库,特别是搜狗词库,是中文自然语言处理的重要工具,它通过提供大量词汇信息,帮助分词算法更准确地理解和处理中文文本,对于提升各种NLP应用的性能至关重要。在使用时,我们可以根据实际需求...
文本文件,四十万汉语大词库 已确认过,每行一个词汇,没有重复词汇,可用于中文分词
本语料库为“电商评论中文语料”,共计包含60万条中文电商产品评论数据,每条评论均已经过空格分词处理,方便进行自然语言处理(NLP)任务的研究与应用。 #### 二、关键词分析 - **中文语料**:指语料库中的文本均...
标题中的“近40万词汇的中文分词词库”是指一个包含大约四十万个词汇的数据库,专门用于中文分词任务。中文分词是自然语言处理(NLP)中的基础步骤,它涉及到将连续的汉字序列切分成具有语义意义的单元,如词语或...
提到“中文分词词库”,通常涉及的词库类型有多种,例如百度分词词库、四十万汉语大词库、搜狗txt词库及五笔词库等。百度作为国内最大的搜索引擎之一,其分词词库广泛应用于搜索引擎的索引和搜索结果的相关性计算,...
中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.txt,四十万汉语大词库.txt,四十万可用搜狗txt词库.txt,搜狗词库方法.txt,五笔词库....
30万 中文分词词库,42537条伪原创词库,dict.txt,fingerDic.txt,httpcws_dict.txt,out.txt,百度分词词库.txt,词库地址.txt,词库下载地址.txt,四十万汉语大词库.txt,四十万可用搜狗txt词库.txt,搜狗词库方法.txt,五笔...
同义词的处理方法: ...来源:attilax的专栏 ...│ 2四十万汉语大词库.txt.txt │ 3伪原创同义词库 2.txt │ 4伪原创同义词库80K 2.txt │ 5近义词大全 2.txt │ 6同义词近义词大全.tx │ 近反义词.doc
#### 四、分词词性标记的应用场景 分词和词性标记在自然语言处理领域有着广泛的应用,主要包括以下几个方面: - **文本分类**:通过分析文本中的关键词汇及其词性,可以有效地对文档进行分类。 - **情感分析**:...
常见的中文分词算法包括基于规则的分词、最大匹配法和条件随机场(Conditional Random Fields, CRF)等。 ### 词性标注 词性标注是指给定一个句子或文本中的每个单词赋予其对应的词性的过程。词性标注可以用于实体...
- `NOT_ANALYZED`:表示字段不会被分词器处理,适合存储一些不需要分词的字段,如数字或日期。 - `ANALYZED_NOT_NORMS`:类似`ANALYZED`,但不存储规范化因子,适合那些不需要考虑规范化因子的场景。 - `NOT_...
接下来,四十万汉语大词库和四十万可用搜狗txt词库则进一步扩大了词汇覆盖范围。汉语大词库通常包含了更为广泛和全面的词汇,包括成语、俚语、专业术语等,而搜狗txt词库可能是基于搜狗输入法的词汇数据库,包含了...
基于词形的最佳路径分词算法的核心思想在于,通过对内存中词表结构的有效组织,以及改进匹配算法和分词算法,应用最佳路径法来实现快速的中文分词。这一算法既保证了高准确率,又显著提升了分词速度。 ### 知识点一...
中文信息处理技术自上世纪五十年代末开始发展以来,已经成为一门集语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多学科交叉的重要领域。随着信息技术的飞速进步,特别是计算机和互联网技术...
《PYTHON自然语言处理中文翻译+NLTK+中文版.pdf》这本书深入浅出地介绍了Python在自然语言处理(NLP)领域的应用,同时结合了NLTK(Natural Language Toolkit)这一强大的库,为读者提供了丰富的实践案例和理论知识...