开源搜索引擎程序有3大类
- lucene系,java开发,包括solr和elasticsearch
- sphinx,c++开发,简单高性能
- Xapian,c++开发
搜索引擎程序这个名称不妥当,严格说来应该叫做索引程序(indexing program),早期主要用来做中文全文搜索,但是随着互联网的深入普及,各家网站规模越来越大,索引程序在 优化网站架构上发挥了更大的作用:替代mysql数据库内置的索引
- 让mysql no sql化,只承担数据持久化存储的功能
- 消除join查询/子查询,提高数据库的并发处理能力
使用状况
Lucene出自名门,子孙兴旺,而且它的兄弟Hadoop风头正盛,所以名气最大,而sphinx因为简单可靠,代码结构优良,性能非常好,在国内大型网站中使用最广.xapian用户太少,不建议使用
技术选型要选人最多的方向,不可标新立异
搜索性能
- elasticsearch有数据说是200ms
- solr 我目前手上没有数据,应该比sphinx慢
-
sphinx 平均搜索时间:20ms,如此之快,是因为sphinx的基本上可以算作静态索引。
client API只能update已经存入的document属性,不能添加新文档。
加入新文档只有通过 build/merge的方式,磁盘IO开销很大,从这个角度,sphinx不适合内容更新频繁的网站,不适合做实时索引。但现实情况是国内强UGC的网站基本上都采用sphinx,比如新浪微博,搜狐微博,赶集网,discuz等
这对程序员来说是巨大的挑战:只能通过建立多级索引,或者采用sphinx+solr的混合方案
Lucene系
-
Lucene 就是一个纯粹的索引程序代码包,使用的时候,你得写一个简单的server程序(接受关键词-通过lucence查询-返回结果),然后配置在应用服务器中(tomcat/Resin),一般来说,这个server程序会采用http协议,或者xml-rpc,直接用tcp那也太无聊了
-
Solr 有大侠急公好义,帮你把上文提到的web 程序写好了,你只需要配置部署就可用,这就是solr,solr对外的接口是http协议,也支持分布式索引
-
Elasticsearch,新项目,最近很红,其实也是Lucene的马甲,有如下特点
- restful接口
- 分布式导向,包括分布式搜索,分布式索引,零配置,自动分片,索引自动负载
- 针对实时搜索专门优化:先把索引放在内存中,定期同步到硬盘
- 附带web 图形化管理工具
elasticsearch 从设计思路上是针对 Amazon CloudSearch,它的关键词是
- 分布式
- 实时
- 高可用
这几点一看就是高富巨,日uv几百万的网站,索引也只有几十G,普通玩家是用不着的
但是从紧跟前沿技术的角度,如果你的索引服务器超过3台,可以尝试部署elasticsearch,性能现在是差点,但硬件和时间会帮你搞定一切
相关推荐
《解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt》是一部深入探讨搜索引擎技术的著作,特别关注于使用Java实现的开源全文搜索引擎库——Lucene。本书结合了理论与实践,旨在帮助读者理解搜索引擎的...
这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...
解密搜索引擎技术实战Lucene&Java精华版(第3版)源码 书名:解密搜索引擎技术实战Lucene&Java精华版(第3版) 作者:罗刚 等编著 出版社:电子工业出版社 关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随...
[开发自己的搜索引擎:Lucene.Heritrix(第2版)].邱哲.扫描版.pdf
分享一套完整版视频课程——分布式搜索引擎Elasticsearch开发实战基础篇 (ElasticSearch、ELK、搜索引擎、Lucene),本教程旨在带领大家进入搜索引擎领域,从无到有,深入浅出的讲解了什么是搜索引擎,搜索引擎的...
解密搜索引擎技术实战Lucene&Java精华版(第3版)源码 书名:解密搜索引擎技术实战Lucene&Java精华版(第3版) 作者:罗刚 等编著 出版社:电子工业出版社 关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随...
开发者可以利用Lucene提供的各种API来构建复杂的搜索引擎,如全文搜索、关键词搜索、模糊搜索等。利用Lucene,开发者可以构建一个基本的搜索引擎,但是要搜索互联网上的内容,还需要一个能够抓取网页数据的工具,这...
### 开源搜索框架Lucene介绍 #### 一、Lucene简介 Lucene是一款非常优秀且成熟的开源全文索引检索工具包,它完全采用Java语言编写,由Doug Cutting于1999年创建,并于2001年10月捐赠给了Apache基金会,成为Apache...
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part8
2. Elasticsearch:Elasticsearch 是一个基于 Lucene 的搜索引擎。 3. Solr:Solr 是一个基于 Lucene 的搜索引擎。 Lucene 特性 1. 高性能:Lucene 具有高性能的搜索能力。 2. 可扩展性:Lucene 具有良好的可扩展...
《解密搜索引擎技术实战 LUCENE & JAVA(第3版)》是一本深入探讨搜索引擎技术的专业书籍,由罗刚撰写。这本书主要聚焦于LUCENE和JAVA这两种技术在搜索引擎开发中的应用,为读者揭示了搜索引擎背后的复杂机制和实现...
垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part2
解密搜索引擎技术实战Lucene&Java精华版(第3版)源码 书名:解密搜索引擎技术实战Lucene&Java精华版(第3版) 作者:罗刚 等编著 出版社:电子工业出版社 关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随...
解密搜索引擎技术实战Lucene&Java精华版(第3版)源码 书名:解密搜索引擎技术实战Lucene&Java精华版(第3版) 作者:罗刚 等编著 出版社:电子工业出版社 关键词:Lucene solr 搜索引擎 Lucene实战 随书源码 本书随...
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part9(END)
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part1
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part3
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part6
这里是解密搜索引擎技术实战:Lucene &Java精华版(第2版)的随书光盘,绝对完整,文件夹共1.16GB,分卷压缩上传,共9个part,这里是part5