`
gladstone
  • 浏览: 71008 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类
最新评论

[全文检索] 庖丁叔叔的逆袭

阅读更多
[全文检索]离开lucene姑娘的日子 里面也有提到. lucene本身自带的StandardAnalyzer对于中文的分词相当弱智。

前段时间试了试庖丁分词:

Paoding Analysis摘要

Paoding's Knives 中文分词具有极 高效率高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析



实际上试试:




输出:





分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...



没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。


 发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0 
分享到:
评论

相关推荐

    全文检索(庖丁解牛)

    在这里,"庖丁解牛"被用来形容一种精细的分词方法,它可能是指在进行全文检索时,对文本进行深入细致的分析,就像庖丁解剖牛一样,精确地识别和拆分出每个词语。 分词是全文检索的重要步骤,它将连续的文本序列分割...

    oracle 全文检索实现

    Oracle 全文检索实现 Oracle 全文检索实现是通过 Lucene 实现的,全文检索是指在数据库中检索特定关键字的记录。这一实现的思路是将数据库中的记录对应索引文件中的一个文档,表主键直接存储在索引文件中,而非主键...

    solr全文检索

    【Solr全文检索详解】 Solr全文检索是一个强大的基于Apache Lucene的企业级搜索服务器,它提供了易用且高效的全文检索解决方案。Solr以其丰富的特性和灵活性,被广泛应用于构建个人或企业的全文检索功能。 **一、...

    lucene中文分词(庖丁解牛)庖丁分词

    总的来说,结合Apache Lucene与庖丁解牛,可以构建出强大的中文全文检索系统。在实际应用中,理解并熟练运用这两者的结合,将极大地提升你的文本处理能力,为用户提供更加智能、精准的搜索体验。

    lucene3.0庖丁+索引搜索程序

    在IT行业中,搜索引擎技术扮演着至关重要的角色,而Lucene作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene3.0版本,结合“庖丁解牛”的精神,对其实现机制进行细致的剖析,并结合...

    庖丁解牛工具

    总的来说,“庖丁解牛工具”是处理中文文本的重要工具,尤其对于那些需要进行文本分析、信息检索或构建中文搜索引擎的项目来说,它的存在极大地提升了工作效率和结果质量。通过深入理解和使用"paoding"中的资源,...

    lucene 中文分词 庖丁解牛

    在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,分词是其关键的一环。本文将深入...

    庖丁分词jar包和dic目录

    标题中的“庖丁分词jar包和dic目录”指的是一个用于中文分词处理的软件工具,其中包含了必要的jar包和字典文件。庖丁分词是基于Java开发的一个高效、可...此外,由于其对Lucene的支持,它也可以应用于全文检索系统中。

    Lucene 庖丁解牛分词法2.4版本jar包

    在实际应用中,例如建立一个新闻网站的全文检索系统,开发者可以利用"庖丁解牛分词法"对新闻内容进行预处理,将每篇新闻文本拆分成关键词,再用Lucene建立索引。当用户输入查询词时,系统将使用相同的分词逻辑进行...

    庖丁分词jar包

    在中文信息处理领域,分词是基础性的工作,它将连续的汉字序列切分成具有语义的词汇,为后续的文本分析、信息检索、情感分析等任务提供支持。庖丁分词以其优良的性能和易于集成的特点,在业界得到了广泛应用。 标题...

    庖丁解牛 中文分词工具

    "庖丁解牛"是一款专为中文处理设计的分词工具,其版本2.0.4-alpha2提供了更稳定和高效的分词体验。这个工具的核心功能是将中文文本拆分成有意义的词语,这对于中文信息处理、自然语言理解和搜索引擎优化等场景至关...

    庖丁分词.jar

    庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar

    全文检索之分词器分享.zip

    3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。

    Auto.js庖丁_3.5.0.apk

    Auto.js庖丁_3.5.0

    lucene3庖丁解牛中文分词器

    Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文文档的处理,Lucene原生的分词能力相对较弱,这就需要我们引入专门的中文分词器来提升搜索效率和准确性。其中,"庖丁解牛"中文分词...

    Auto.js庖丁3.2.0最新版.rar

    Auto.js庖丁是一款基于JavaScript的自动化工具,专为Android设备设计,允许用户编写脚本来实现各种自动化的任务。3.2.0版本是该软件的一个更新版本,可能包含了一些新功能、性能优化或修复了已知问题。在当前场景中...

    庖丁解牛分词源码

    通过研究"庖丁解牛分词器"的源码,开发者不仅可以提升在中文分词领域的专业技能,也能深入理解Java编程、算法设计以及软件工程实践,对于从事自然语言处理和信息检索等相关领域的工作大有裨益。

    sorlr + tomcat+ 庖丁解牛中文分词 配置文档

    它提供了一个高效、可扩展的全文检索、索引和搜索解决方案,支持多种数据源,如XML、JSON等。 2. **Tomcat服务器**: Tomcat是Apache软件基金会的一个项目,作为Java Servlet和JavaServer Pages(JSP)容器,广泛...

    庖丁解牛jarbao

    在信息检索、文本分析、情感分析等众多领域,分词效果的好坏直接影响到后续处理的精度。 庖丁解牛的特点在于其灵活性和可定制性。用户可以根据实际需求配置字典的路径,字典是分词器进行分词决策的主要依据,包含了...

Global site tag (gtag.js) - Google Analytics