`
deepfuture
  • 浏览: 4375516 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79863
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:69456
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:102784
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:284009
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14910
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:66978
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31807
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45791
社区版块
存档分类
最新评论

lucene-Nutch分析

阅读更多

分析:Nutch在索引时进行分析所使用的二元语法技术与查询过程中对短语的优化技术结合在一起。

public class NutchExample{

public static void main(String[] args) throws IOException{

NutchDocumentAnalyze analyer=new NutchDocumentAnalyzer();

displayTokenWithDetails(analyzer,"The quick brown fox...");

net.nutch.searcher.QuerynutchQuery=net.nutch.searcher.Query.parse("\"the quick

brown\"");

Query query=QueryTranslator.translate(nutchQuery);

System.out.println("query="+query);

}

}

输出为

1:[the:<WORD>][the-quick:gram]

2:[quick:<WORD>]

3:[brown:<WORD>]

4:[fox:<WORD>]

可见th-quick和the处于相同位置,Nutch没有错过停用词,因为很多进修停用词和后面的词一起表达语意

分享到:
评论

相关推荐

    apache-nutch-1.7-src.tar.gz

    在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    1. **导入项目**:首先,你需要在Eclipse或IDEA中创建一个新的Java项目,然后将解压后的`apache-nutch-1.16`目录作为项目的根目录导入。在IDE中,这通常通过"Import Existing Project"或"Open Project"功能完成。 2...

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    apache-nutch-1.5.1-bin.tar.gz

    Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的开放源代码方便任何人去查看Nutch排序算法的工作流程。因此Nutch就可以更好的发展,为那些爱好...

    Lucene+Nutch搜索引擎开发.王学松源代码

    4. 探索Nutch和Lucene的高级特性,如URL过滤、网页去重、链接分析等。 总的来说,王学松的“Lucene+Nutch搜索引擎开发实例代码”是一份宝贵的教育资源,它可以帮助开发者快速入门搜索引擎开发,并深入了解这两个...

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

    Lucene+nutch搜索引擎开发(全本2-1)

    Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    apache-nutch-2.3.1-src

    apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译

    apach-nutch-1.9-bin.tar.gz

    4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...

    基于lucene和nutch的开源搜索引擎资料集合

    [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf 一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合...

    apache-nutch-1.6-src.tar.gz

    这个`apache-nutch-1.6-src.tar.gz`文件包含了Nutch 1.6的源代码,允许开发者深入研究其内部机制,定制自己的爬虫需求,或者为项目贡献代码。 源代码包`apache-nutch-1.6`中通常包含以下几个关键部分: 1. **源...

    Lucene+nutch搜索引擎开发 源代码

    《Lucene+nutch搜索引擎开发》书附带的源代码

    Lucene+nutch搜索引擎开发(全本2-2)

    Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分

    Lucene+nutch搜索引擎开发(源代码)

    Nutch则是建立在Lucene基础上的开源搜索引擎项目,它不仅包含了网页抓取、预处理(如HTML解析、链接分析等)、索引和搜索等功能,还提供了分布式爬虫的能力,能够处理大规模的数据。Nutch使用Hadoop进行分布式处理,...

    Lucene+Nutch本书源码+详细说明

    通过分析这些源码,我们可以学习如何将Nutch抓取的网页内容转化为适合Lucene索引的格式,如何使用Lucene的API构建和更新索引,以及如何设计查询解析器和搜索结果排序算法。 总的来说,这个资源对于想要深入了解搜索...

    Lucene+Nutch搜索光盘资料

    《Lucene+Nutch:构建全网搜索引擎的深度解析》 Lucene和Nutch是两个在信息检索领域广泛应用的开源项目,它们共同构成了强大的全文搜索引擎框架。Lucene是Java实现的高性能、可扩展的信息检索库,提供了索引和搜索...

    lucene+nutch搜索引擎开发源码1

    《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...

    apache-nutch的源码

    在`apache-nutch-2.2.1`这个压缩包中,你将找到以下关键组成部分: 1. **源代码结构**:Nutch 的源代码通常分为几个主要模块,包括`conf`(配置文件)、`bin`(脚本和可执行文件)、`src`(源代码)以及`lib`(库...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    - `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置爬虫的行为和各种参数。 - `src/test`:测试代码,包括单元测试和集成测试,有助于理解和验证 Nutch 的工作原理。 - `src/bin`:包含命令行工具,如 `...

Global site tag (gtag.js) - Google Analytics