`
winzenghua
  • 浏览: 1370298 次
  • 性别: Icon_minigender_2
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

Lucene2.2 + MMAnalyzer 1.5 实现 中文分词 并排序

阅读更多

代码:

运行结果:

词数:486
map size:338
说、爸爸、父母、真的、怎么、觉得、但是、小、赶紧、回家、饭盒、让他、子女、烧鹅、电话、就、很多、心情、忍不住、买了、一半、拿来、好些、厨房、天、而且、可是他、帮忙、吃完、一袋、用脑、说话、是你、晚上、可是、看了、都会、酱油、这样、碟子、可以、电视、也许、几个、一下、打开、都是、空的、不会、没有、这次、还有、放在、本想、孝顺、简单、大家、自己、晚了、时候、
说=7
爸爸=6
父母=5
真的=4
怎么=4
觉得=4
但是=4
小=4
赶紧=4
回家=4
饭盒=3
让他=3
子女=3
烧鹅=3
电话=3
就=3
很多=3
心情=3
忍不住=3
买了=3
一半=2
拿来=2
好些=2
厨房=2
天=2
而且=2
可是他=2
帮忙=2
吃完=2
一袋=2
用脑=2
说话=2
是你=2
晚上=2
可是=2
看了=2
都会=2
酱油=2
这样=2
碟子=2
可以=2
电视=2
也许=2
几个=2
一下=2
打开=2
都是=2
空的=2
不会=2
没有=2
这次=2
还有=2
放在=2
本想=2
孝顺=2
简单=2
大家=2
自己=2
晚了=2
时候=2

分享到:
评论
1 楼 lsw521314 2012-07-13  
亲,能不能把包传上来啊?谢了

相关推荐

    网络爬虫+lucene 2.2+搜索引擎

    更多资料联系小麦 lucene 2.2 减少一个积分 QQ: 125218619

    lucene.net+盘古分词多条件全文检索并匹配度排序

    使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...

    lucene6.6+拼音分词+ik中文分词包

    然而,对于中文文本,Lucene默认的分词器并不理想,因此我们需要引入专门针对中文的分词工具。 IK Analyzer(IK中文分词器)是为了解决这个问题而诞生的。它是开源的Java实现的中文分词组件,特别适合用于Java开发...

    Lucene.Net+盘古分词C# Demo

    Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--dic

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    Lucene.Net+盘古分词Demo

    Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--news.part2

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    Lucene4.7+IK Analyzer中文分词入门教程

    【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part1

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--news.part1

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

    中文搜索分词lucene包+paoding包

    Lucene和Paoding是两个广泛使用的开源工具,它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库,由Apache软件基金会开发。它提供了索引和搜索文本的能力,使得开发者能够快速构建自己的搜索...

    compass2.1.4包+所用lucene包+中文分词器

    Je-Analysis 可能是基于 Java 实现的,适用于 Lucene 和 Solr 等搜索引擎,它提供了诸如词典分词、歧义消除、新词发现等功能,帮助搜索引擎更好地理解和索引中文内容。 在实际应用中,Compass 会使用 Lucene 的底层...

    lucene2.2的源码包

    Lucene 2.2提供了多种分析器,如StandardAnalyzer,用于处理英文文本,以及ChineseAnalyzer,专门针对中文进行分词。 2. 索引(Index):Lucene通过构建倒排索引来实现快速搜索。倒排索引记录了每个术语在哪些文档...

    Lucene.Net +盘古分词 搜索引擎

    "盘古分词"是一个专门针对中文的分词工具,它可以将中文文本有效地切分成一个个独立的词语,为Lucene.Net提供精确的索引和查询基础。盘古分词以其高效、准确和丰富的词汇库,广泛应用于各种中文信息处理系统,包括...

    lucene.net 2.9.2 实现索引生成,修改,查询,删除实例

    在这个实例中,我们将深入探讨如何使用Lucene.NET 2.9.2来实现索引的生成、修改、查询和删除。 **一、索引生成** 首先,我们需要创建一个索引,这是全文检索的基础。在Lucene.NET中,我们通常会定义一个文档类,...

    lucene.net+盘古分词

    盘古分词能有效地识别并切分中文句子中的词汇,为Lucene.NET创建准确的索引奠定基础。在使用盘古分词时,开发者可以自定义分词规则,以适应特定领域的词汇需求。 结合Lucene.NET和盘古分词,我们首先需要将待搜索的...

    自己刚开发完成完美运行Lucene.net+SQL server(附数据源)童叟无欺

    3.使用了较新的Lucene.net,目前是3.0版本 4.使用了最后一版盘古分词(2016年版本) 5.使用Winform+webBrowser实现(webBrowser负责显示结果) 使用方式: 1.新建数据库,然后在新建的数据库中执行附件根目录的sql...

    MMAnalyzer 分词jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    总的来说,MMAnalyzer是Java环境下基于Lucene的高效中文分词工具,它提供了简单易用的API,使得开发人员能够快速集成到自己的项目中,实现中文文本的高效处理。然而,随着技术的发展,更现代的分词库和更高级的分词...

Global site tag (gtag.js) - Google Analytics