最新文章列表

Lucene 中文分词的 highlight 显示

1 、问题的来源 增加分词以后结果的准确度提高了,但是用户反映返回结果的速度很慢。原因是, Lucene 做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法 在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Token.getPositionIncrement() 和 Token.sta ...
lihaiyan 评论(0) 有1527人浏览 2007-09-27 17:55

使用Lucene进行全文检索---处理索引

http://www.jscud.com 转载请注明来源/作者 关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE  Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是http://lucene.apache.org.相关的一个项目是车东的WebL ...
lihaiyan 评论(0) 有1408人浏览 2007-09-27 17:53

深入 Lucene 索引机制

架构概览 图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 Lucene 的分词器把这些信息写到索 ...
lihaiyan 评论(0) 有1124人浏览 2007-09-27 17:52

Lucene站点推荐

地址:http://www.lucene.com 简介:Ramblings about Lucene, Nutch, and other stuff. 摘要: I'm a primary developer of the Lucene and Nutch open source search projects. Lot's of folks think good open-sou ...
lihaiyan 评论(0) 有1339人浏览 2007-09-27 17:48

Lucene中文分词组件 JE-Analysis 1.4.0

本站申明: 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ ...
lihaiyan 评论(1) 有5177人浏览 2007-09-27 17:45

Lucene进阶:and 和or的条件查询

     在用Lucene实现全站搜索的过程中,很可能会遇到这样的问题,只所有某种特定的信息资源,而不是全部.如:某综合性站点,有新闻,产品,论坛,Blog,视频等资源,而搜索的时候先选一个类型(下拉列表),再输入关键字进行搜索(当然,这种情况可以直接用sql来实现,我们这里是基于lucene的实现考虑).这种情况下,就要用到and和or的查询了.这里假设索引已经建立好了(如何建立索引请参考:htt ...
DavyLee 评论(2) 有4769人浏览 2007-09-24 10:39

Lucene 基础指南

Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,但api其实很简单的,它最主要就是做两件事:建立索引和进行搜索。 1. 建 ...
wind_bell 评论(0) 有1258人浏览 2007-09-21 11:55

lucene辅助工具luke安装

Tags在cmd 命令行中转到"luke_run" 目录,输入" java -classpath lukeall-0.7.1.jar;lucene-2.0.jar org.getopt.luke.Luke " ,可以看到打开luke 图形 ... Nutch version 0.8 安装向导Nutch version 0.8 安装向导1、必要的条件1.1 Ja ...
dodomail 评论(1) 有3885人浏览 2007-09-20 16:57

从数据库里取数据并且用lucene添加索引

package com.chedong.weblucene.index; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.sql.Connection; import java.sql.SQLException; import java.util.Date; i ...
dodomail 评论(0) 有2113人浏览 2007-09-20 16:49

Lucene(Lucence)建立索引(字段)

    Lucene,这是官方称谓,也有许多人叫它Lucence,做搜索和分词用的工具包.也有人说是Java下的搜索引擎框架库,见仁见智的说法罢了.不管叫什么,确实非常有用,比如做全站的搜索,其实它的用处远大于此,但凡涉及到文本搜索的地方就能用到它.我们就以做全站搜索为例,演示一下如何应用Lucene建立索引. public void index(List<IArticle> lis ...
DavyLee 评论(1) 有4890人浏览 2007-09-20 11:09

Lucene practice

1.simply practice the lucene api for search document and data, post code first lucene version :2.2.0 set up the index of files java 代码 package com.aaron.lucene;       import java.io.File ...
aaron_ch 评论(0) 有1075人浏览 2007-09-19 22:23

Lucene的Field类型

1.       2.0以前的版本 Keyword: Field的值将被保存到索引文件,为Field的值建立索引,建立索引时不需要分词。 UnIndexed: Field的值将被保存到索引文件,不为Field的值建立索引,因此不能通过该Field搜索文档。 UnStored: Field的值不被保存到索引文件,将Field的值分词后建立索引 Text: Fi ...
java0 评论(0) 有1836人浏览 2007-09-19 19:25

电子商务网站重点要解决的几个问题

转载:http://www.cnblogs.com/sanle/archive/2006/03/04/342832.html 构、搜索、性能等技术角度分析了电子商务网站重点要解决的几个问题,并给出一些建议和方案 本 ...
funjackyone 评论(0) 有1287人浏览 2007-09-15 10:15

solr弯路篇

在改造solr的过程中,发现代码越写越驱近于nutc <wbr></wbr>h。。。。。再次打开nutch的代码进行研读,发现n<wbr></wbr>utch对于hadoop的支持更为自然(但nutch<wbr></wbr>不支持最新的hadoop0.14版本,只支持到had<wbr></wbr>oop- ...
清风 评论(2) 有3105人浏览 2007-09-14 17:33

Lucene(Nutch)与商业文本搜索引擎的区别

转:http://www.dmresearch.net/data-mining/data-mining/shujuwajueqita/2007/0903/110640.html       最新一次更新的时候,我再次研究了一下Lucene,读完了Lucene In Action,并 ...
fly.net.cn 评论(1) 有3682人浏览 2007-09-14 13:09

solr+lucene+hfs心得(1)

这几天一直在捣鼓solr,lucene,hdfs这几个东西,在此记录几个关键点 1.solr 是一个很好的中间系统,他把lucene很好的进行了包装,几乎各个部分都可以进行自己的扩展。我们会用到的部分: 自定义数据源格式,并添加索引 将原始文件和索引添加到hfs 目前搜索的部分已经够用 Cache Rpc式的搜索 我们要用到的一些特性solr都提供了,而且很容易扩展 2.lucene 强 ...
清风 评论(0) 有6532人浏览 2007-09-14 00:32

Hadoop and Lucene

这几天的工作一直在围绕Hadoop进行,记录一些随手心得. Hadoop有价值的部分: 1.HDFS 一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存 2.Map/Reduce 用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度 Lucene,以前只是比较皮毛 ...
清风 评论(2) 有7153人浏览 2007-09-14 00:30

四个开源商业智能平台比较(六)

roadmap是一个项目的计划表,个人认为任何一个项目都应该有的,这样你的developer能够知道自己工作的项目处在什么状态,也不至于每天都在没日没夜的忙,却不知道自己在忙什么,这样更能够提高团队的士气。 openI的roadmap我好像是看到过了的,但是等我去找的时候却没有了,所以直接跳过,如果有哪位朋友看到了,也请麻烦告诉我一声。 JasperSoft 我找到的这一篇是Novembe ...
jy158757 评论(0) 有2145人浏览 2007-09-12 14:30

猎兔分词

  1、猎兔分词的特性: l         可以作为lucene的一个模块调用,作为二元分词方法的替代。该组件直接扩展org.apache.lucene.analysis.Tokenizer和org.apache.lucene.analysis.Analyzer 类。 l         分词准确率98%以上。 l         同时支持分词和词性标注。 l         提供参数调节分词准确 ...
yahaitt 评论(0) 有3333人浏览 2007-09-10 23:55

构建在lucene之上搜索引擎框架

Compass和Hibernate Search都是构建在lucene框架之上的搜索引擎框架。他们使你很优雅的使用lucene搜索引擎(就像使用Hibernate一样).Compass和Hibernate Search与之lucene就像Hibernate与之jdbc。当然2个框架各有各自的优点:倆个框架都能够很好的与Hibernate结合,Compass同时提供了对JDBC、Ibatis、Apac ...
pppppp 评论(0) 有2431人浏览 2007-04-19 05:23

最近博客热门TAG

Apache(33929) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics