本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- 龙儿筝
- arpenker
- tanling8334
- kaizi1992
- gaojingsong
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- jbosscn
- mengjichen
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- kingwell.leng
- mwhgJava
最新文章列表
solr搜索引擎特性
英语原文(官方)翻译
Solr 简介
Solr 是一个带有web界面的企业级搜索服务器。它通过http协议将xml格式的文件进行索引,通过http协议进行查询,返回结果为xml格式。
* 先进的全文搜索能力
* 优化的web流量
* 基于开放接口(xml&http)的标准
* 集成的HTML管理界面
* 可扩展性
搜索引擎名人堂之Doug Cutting
Doug Cutting是一个开源搜索技术的提倡者和创造者。他和Mike Cafarella发起Lucene和Nutch开源搜索项目,这些项目现在被Apache软件基金会管理。早期开发Luncene,Doug研究搜索技术还在Excite,apple公司和Xerox PARC。Lucene是一个搜索索引索器,Nutch有一个蜘蛛或爬虫,是一个普通开源搜索平台的两个关键组件,首先爬取网络内容,然后将其构 ...
网站全文检索的实现(基于lucene 2.0)
辛辛苦苦做好了一个网站,接下来就必须为用户提供全文检索的功能,本程序为您的网站提供全文检索的功能,你只需要修改一下配置文件即可,供大家学习参考,程序只有一个JSP页面,你可以把他放在任何J2EE容器下(如Tomcat等),系统采用全Ajax实现,请在c:\下建立索引目录,把index.rar解压后的文件拷贝到那,由于用到的jar较大,所以这里运行的包中省去了包,请自行到官方网站下载
完成了paoding与lucene的集成
---------------------------------------------------20080729---------------------------------------------------
理解疱丁分词的基本原理,编译原码,用ANT编译
E:\workspace\searchengine\paoding-analysis-2.0.4-beta
完成了中文分词的 ...
solr 的分析器,分词器和分词过滤器(2)
5. solr.HTMLStripWhitespaceTokenizerFactory
从结果中出去HTML标签,将结果交给WhitespaceTokenizer处理。
例子:
my <a href="www.foo.bar">link</a>
my link
<?xml?><br>hello<!-- ...
solr 的分析器,分词器和分词过滤器(1)
【本文基于对此英文网页的理解http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters】
概览
当对一个文档(document是一系列field的集合)进行索引时,其中的每个field(document和file都是lucene中的概念)中的数据都会经历分析,分词和多步的分词过滤等操作。这一系列的动作是什么呢?直观的理解是, ...
盘点Java技术开源搜索引擎 作者:panjun 2008-06-26
【IT168技术分析】 Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Lucene
Apac ...
盘点Java技术开源搜索引擎 作者:panjun 2008-06-26
【IT168技术分析】 Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Lucene
Apac ...