最新文章列表

Lucene索引原理

Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:      0)设有两篇文章1和2   文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.   文章2的内容为:He once lived in Shanghai.      1)由于lucene是基于关键词索引和查询的,首先我们要取得 ...
wind_bell 评论(4) 有4706人浏览 2007-04-25 17:20

Introduction to Nutch, Part 1: Crawling(转)

Nutch is an open source Java implementation of a search engine. It provides all of the tools you need to run your own search engine. But why would anyone want to run their own search engine? After all, ...
cutesource 评论(0) 有2277人浏览 2007-04-24 19:05

深入 Lucene 索引机制

Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。 在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住的是, ...
wind_bell 评论(0) 有1563人浏览 2007-04-24 18:13

Lucene学习笔记(3)

  继续学习车东利用Lucene提供网站全文检索的开源项目。   由于文档不全,这次看代码看得很苦,几乎是用log4j一个类一个方法的看过来的。令人高兴的是,期间请教车东时,他说到要重新整理一下整个项目的源代码和文档,估计后来者可以轻松矣。   除了以前提到的汉化外,车东在这个项目中,加入了很多实用的东东,如反显、排序、摘要等,甚至也连网页过期时间、输出格式的限制都考虑到了。   下面是我的测试 ...
junjie314 评论(0) 有1061人浏览 2007-04-23 13:20

Lucene学习笔记(2)

不仅仅在推广和介绍方面,车东在Lucene的汉化及web应用,也作出了极大的极大的贡献。他将自己的汉化和web应用两方面的成果,放在sourceforge上成了开源的项目。下面主要是对这个项目的学习笔记。   对Lucene的汉化,车东开发了两个Analyzer,一个是二元切分,一个单字切分。利用这两个中的任一个进行分析,都可以进行汉字的索引和检索了。我把这两个Analyzer编译后一起打入到luc ...
junjie314 评论(0) 有1024人浏览 2007-04-23 13:18

Lucene学习笔记(1)

0、准备工作   去Lucene的主页下载目前的稳定版本lucene-1.2.tar.gz,解压缩,将lucene-1.2目录下的两个jar文件lucene-1.2.jar和lucene-demo2-1.2.jar放到适当的目录下后,并将其加入到CLASSPATH环境变量中。   tar zxvf lucene-1.2.tar.gz <----解压缩 cd lucene-1.2 cp *.j ...
junjie314 评论(0) 有1338人浏览 2007-04-23 13:12

四个开源商业智能平台比较(六)

四个开源商业智能平台比较(六) roadmap是一个项目的计划表,个人认为任何一个项目都应该有的,这样你的developer能够知道自己工作的项目处在什么状态 ...
jjjava 评论(5) 有7540人浏览 2007-04-23 12:27

Map Reduce - the Free Lunch is not over?(转)

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and Bill tak ...
cutesource 评论(0) 有969人浏览 2007-04-21 15:54

Write an IDE in One Month - ErlyBird 0.11.0 Released

Updated Apr 20:Due to a severe bug that prevents setting Erlang Installation path, I've re-pack a new release 0.11.1 that fixed it. Don't forget to set the Erlang Installation path to full path of erl ...
dcaoyuan 评论(0) 有1337人浏览 2007-04-20 09:31

nutch应用-安装与使用(转)

原文 http://blog.sina.com.cn/u/5595d514010008io nutch是一个非常不错的项目,由于最近我需要对一些内部的文档和站点建一个search的站点,所以又开始了nutch的旅程。不过这次是坎坎坷坷, 尽把问题出在了小地方了。当然,也有很久没有再用过nutch了,之前哪次还是一年前的事了。现在的0.8.1变化也是很大。本文所讲述的版本都是基于 0.8.1来讲的。与 ...
cutesource 评论(0) 有1315人浏览 2007-04-20 07:58

lucene

1。今天研究了一下lucene,对于初学者来说,有一个地方以前还没怎么弄懂,可能不是很用心吧。今天又写点小的作业,用lucene来实现,对于以前遇到的 ...
myqhit 评论(0) 有2323人浏览 2007-04-19 14:29

初识Lucene

前言         目前处于工作交接阶段,比较清闲,花了几天时间看了Lucene,了解一下这个老总一直说要用之来解决项目中的问题的东东。Lucene的原理相对简单,有几篇文章很好地进行了介绍,见参考资料,这里只是按自己的理解整理一下。Lucene In Action对具体的细节有比较深入的介绍,遗憾的是该书是针对1.x版本的,新版本有很多变化,不过不影响对其原理的理解。          要想从 ...
white182517 评论(2) 有4096人浏览 2007-04-19 10:50

SpringSide 2.0 概述

1. 介绍      SpringSide以Spring Framework为核心,以RoR的简约风格整合Java社区的众多开源项目,大家开发Java企业应用提供一个方便起点。      它整合了Fu ...
hain 评论(2) 有3199人浏览 2007-04-16 23:25

Lucene学习一

最近要用到全文检索技术。 这个Lucene是个在java界有着很高声誉的全文检索包。 通过学习,自己对它算是有个初步了解。所以写下心得与经验跟朋友们分享。 对于整个网站的结构我说下我的看法 数据库+前端技术+后台处理技术。 上面的这些我就不说了。用来用去就是那几个,你觉得那个用的顺手就行了。 搜索引擎技术呢,我觉得要点是: 1。把我们分散的数据资源整合起来-----对应于Lucene的Index也 ...
wuhua 评论(12) 有4679人浏览 2007-04-16 16:24

从Lucene 2.0升级到2.1.0之路

作者:caocao(网络隐士),转载请注明来源:http://caocao.iteye.com/blog/70305   随着Lucene 2.1.0在2007年情人节的问世,隐士遂将本来基于的2.0的应用升级到了2.1.0,升级日志如下:(2.1.0新功能请参见http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_1_0/CHANGE ...
caocao 评论(12) 有10523人浏览 2007-04-12 16:28

转贴:Nutch爬虫工作流程及文件格式详细分析

Nutch爬虫工作流程及文件格式详细分析 Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分 ...
alartin 评论(2) 有6511人浏览 2007-04-11 10:32

lucene2.0中的查询疑问

环境:lucene2.0 我通过lucene把数据库中需要全文检索的表都建立了索引 其中包括: id:主键 title:标题 content:描述 keywords:关键字 bigClass:大类 smailClass:小类 city: 城市 需求: 现在客户从客户端输入一个关键字k,那么,可以在title/content/keywords里面匹配,关系是or,就是说有一个满足就行了 b ...
yxhzj 评论(1) 有1396人浏览 2007-04-09 20:47

引入局部统计识别高频词汇的Lucene中文分词程序

在基于词典的最大匹配的Lucene中文分词程序基础上引入了局部统计识别新词的功能,目前实现的方法有两种: 1、基于后缀数组的局部统计识别高频词汇               BasedSuffixArrayStringFetcher 2、基于单字共现频率的局部统计高频词汇       HighFrequenceStringFetcher 问题1:什么是后缀数组 解答: 后缀数组是由作为一种文本 ...
billgmh 评论(2) 有3991人浏览 2007-04-02 18:40

开源的搜索引擎工具包和Web搜索引擎系统

开源搜索引擎工具包 1.Lucene Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的L ...
killazy 评论(0) 有3224人浏览 2007-03-30 20:55

Compass的一些名词

1:Resource,Compass对Lucene的Document的抽象,与Alias联系在一起。 2:Property,Compass对Lucene的Field的抽象。通过Compass Converter framework将不是String类型的对象转换为可以索引的Property。 3:RSEM:Resource/Search Engine Mapping,资源搜索引擎影射。 4:Luce ...
killazy 评论(0) 有1008人浏览 2007-03-30 20:36

最近博客热门TAG

Apache(33929) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics