最新文章列表

Lucene应用的一点体会

Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确) 1.多线程索引,共享同一个IndexWriter对象 这种方式效率很慢,主要原因是因为: java 代码   public void addDocument(Document doc, Analyzer analyzer) throws IOException {   SegmentInfo ne ...
ttitfly 评论(5) 有4936人浏览 2007-06-11 11:15

强大的lucene中文分词器

package com.wellhope.lucene; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.Token; import org.apache.lucene.analysis.TokenStream; import org ...
leoyang3033 评论(10) 有5908人浏览 2007-06-07 21:49

开放源代码搜索引擎

开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。  搜索引擎的工作流程主要分为三步:从互联网抓取网页→创建抓取网页的索引库→从 ...
coreoak 评论(0) 有3746人浏览 2007-06-02 09:42

lunece建立索引遇到的问题

  最近对lucene的检索进行了肤浅的学习  先是把论坛里大部分的lucene的帖子看了下  大致了解了下lucene   决定学习  在自己测试的时候  发现在对大表的创建索引时耗费的时间实在太长 想通过多线程来解决 对一个表的总记录数来决定创建几个线程来创建索引, 结果是报错:  D:\lucene\index\_a.fnm (系统找不到指定的文件。) Lock obtain timed ou ...
sgzlove2007 评论(9) 有5274人浏览 2007-05-31 14:13

Compass的搜索结果(Hit)

Compass的搜索语法基本上和Lucene一样.但是有两点要注意:Compass读取搜索配置文件, 默认的是对所有元数据都搜索, 这点比Lucene方便. 例如,在Lucene中,你需要指定要搜索的Field, 如果你需要搜索标题域和内容域的话, 唯一的方法就是创建一个全文域将标题域和内容域整合在一起. 而在Compass中, 在配置文件中有all这个选项, 默认情况下就是对所有元数据搜索;另外一 ...
alartin 评论(0) 有3944人浏览 2007-05-30 10:21

Heritrix使用的初步总结

一、框架介绍   公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。         目前技术选型对象主要有两个:He ...
jason823 评论(6) 有28737人浏览 2007-05-29 14:01

61节礼物列表

儿童节到了,儿童节小时候不大过,也没什么兴趣,印象中就是像我这样的双职工家庭孩子被关在学校玩了一天无聊的东西而已,印象比较好的一次看了京戏,名字是《三岔口》,呵呵。所以虽然年纪大了,不过还是会过点孩子般的生活的:),所谓活到老,过到小,耶!礼物还是需要的,给自己买当然节省也是需要的:19289182开发自己的搜索引擎——Lucene 2.0+Heritrix(含光盘) 65元195%46.31292 ...
edwardpro 评论(0) 有1135人浏览 2007-05-29 00:19

分析/解析Html页面:HTML Parser的试用

转载自: http://www.jscud.com/srun/news/viewhtml/2_2005_8/71.htm   最近在研究lucene的全文检索,在很多地方需要解析或者说分析Html内容或者Html页面,Lucene本身的演示程序中也提供了一个Html Parser,但是不是纯Java的解决方案.于是到处搜索,在网上找到了一个"HTMLParser". 网址是: h ...
junjie314 评论(0) 有4086人浏览 2007-05-27 00:07

lucene2_0创建、检索和删除功能的完整实现

// 创建索引     public void indexFiles() {         // 创建索引文件存放路径         File indexDir = new File("E:\\lucene_Learning\\lucene-2.0.0src\\src\\demo\\index");         try {             Date sta ...
junjie314 评论(0) 有1307人浏览 2007-05-23 13:44

Re: 关于Lucene 做全文搜索的问题

[quote="mao_lu"][quote="江南白衣"]你不是用compass么,但你用的好像是lucene的原生API阿。用compass的话就不用处理这些细节[/quote]那这样的情况怎么解决?[/quote] writer = new IndexWriter(directory, analyzer, false); 给这个false改成true就可 ...
tianyi 评论(0) 有909人浏览 2007-05-23 09:13

[原创]Nutch_0.8实践(1)

  Nutch_<st1:chmetcnv hasspace="True" numbertype="1" negative="False" sourcevalue=".8" unitname="in" w:st="on" tcsc="0">0.8实践 ...
X.D.Hua 评论(2) 有3169人浏览 2007-05-21 22:03

BooleanQuery$TooManyClauses的问题

org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024    at org.apache.lucene.search.BooleanQuery.add(BooleanQuery.java:165)    at org.apache.lucene.search.BooleanQuery.ad ...
grantbb 评论(1) 有5073人浏览 2007-05-21 17:16

搜索引擎资料收集(转)

搜索引擎学习资源收集 一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究 http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。 ...
wind_bell 评论(1) 有10927人浏览 2007-05-21 10:42

全文搜尋 (Lucene 和 Ferret)

搜尋器改變了人們的習慣。當有能力在互聯網上用 0.01 秒的搜尋就找到想要的資料時,如果我們的軟件要花個幾秒甚至幾分鐘才找到資料,用家就會覺得這個軟件很差勁了。 怎樣去做搜尋? 最近單的方法莫過於 SELECT * FROM MYTABLE WHERE CONTENT LIKE '%KEYWORD1%' OR '%KEYWORD2%' 。我們的專案就是用這個方法搜尋用戶地址。這個方法完全沒有問題 — ...
siuying 评论(0) 有1614人浏览 2007-05-20 17:45

直接从页面如何来构造一个Map的问题,疑惑中.....

环境: WebWork 2.2.* +Spring 2.*+Hibernate 3.* 因为系统中遗留的问题,有这样的表 id,fieldid,fieldvalue 这种纵表,扩展性是很好,但是有个问题Hibernate处理这种不太好处理,当然也能处理. 在映射的时候,我是这样做的fieldid为该Map的Key,而整个一条记录为Map的Value.当时想设计成Set或者Array 但是因为在代码中 ...
jansel 评论(0) 有985人浏览 2007-05-17 21:15

使用领域模型(domain object)来进行索引、搜索

对于讲domain object 映射到关系型数据库中,hibernate等持久性框架做了很多的工作,使得业务逻辑只需要和hibernate等持久层进行交互,而不需要直接和具体的数据库进行交互。 这给程序员带来了很大的方便,在业务逻辑处理上,只要针对domain object就可以。 使用Lucene进行索引、搜索开发的的时候,最经常碰到的概念就是Document 和Field,在程序中一个不得不 ...
Goodtiger 评论(0) 有1069人浏览 2007-05-16 06:45

Nutch项目配置1---内部网搜索(原)

http://lucene.apache.org/nutch/tutorial8.html 有如下的介绍: Requirements Java 1.4.x, either from Sun or IBM on Linux is preferred. Set NUTCH_JAVA_HOME to the root of your JVM installation ...
wind_bell 评论(1) 有6817人浏览 2007-05-15 17:28

Lucene Hack之通过缩小搜索结果集来提升性能 (2)

作者:caocao(网络隐士),http://www.caocao.name,http://www.caocao.mobi 转载请注明来源:http://www.iteye.com/topic/80073 书接前文(http://www.iteye.com/topic/78884),上回说了个大致的原理,这回开始上代码。 五、原则 1、不改动lucene-core的代码 肆意改动lucene-c ...
caocao 评论(3) 有4416人浏览 2007-05-15 12:32

转载:给Lucene加入性能更好的中文分词

给Lucene加入性能更好的中文分词 转自:http://blog.donews.com/windshow/archive/2005/09/23/564655.aspx  Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram. 这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多. 经过认真研究了Lucene的 ...
ljm3256748 评论(0) 有1708人浏览 2007-05-14 21:27

J2EE的一些个人见解

前几天看了 jwsh的帖子,有感:1、O/R Mapping工具:首选hibernate,国内使用这个的比较多,同时ejb3.0也是基于hibernate实现的。Hibernate技术本质上也是遵守的ODMG标准的,它的出色源于不断的升级、不断的维护、修改。以及完善的文档、人气很旺的论坛,还有很重要的一点就是它的易学易用性。其他的按情况使用,如:jdo,ibatis等。2、事务处理:使用spring ...
wangyihust 评论(0) 有724人浏览 2005-06-16 09:43

最近博客热门TAG

Apache(33929) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics