- 浏览: 156317 次
- 性别:
- 来自: 上海
最新评论
-
1285132895:
能讲的具体一点吗?或者提供一点资料也行啊
Apache Tika 文件内容提取工具 -
shuyanbo:
想法很好。网站停掉了?好像不能访问。
为什么要搭论坛 -
mistbow:
论坛进不去了。。。。
目前我感兴趣的,希望有同好,一起学习 -
柏瑞克李:
我觉得lucene的打分 更多的依赖于 query parse ...
我为什么没有用lucene的score来排序 -
alexzhan:
因为在greader上订阅了你的博客。所以看到了你的文章。
2010-8-3扯淡
文章列表
1:我不会java
2:在看Sphinx
3:我也不会c++,在看
4:欢迎撇开语言撇开框架聊搜索引擎的朋友,可以PM我。
5:喜欢算法的朋友,也可以PM我。
大概就是关键词在哪些文档出现了,建立以关键词和docid的对应关系
网上铺天盖地就是这个。
如果关键词A比较常用,有1千万个docid,不同字段,,,那么这个索引该如何存储?
我们常规的分词字典都是上万的关键词。
你用lucene,,那么lucene如何使用内存,内存里放了什么呢?
如果说得不对还请指正:
Sphinx是一个类似Lucene东东,同样没有爬虫部分。
源代码是c++写得,国内很多人一说到高效高速就想到c++,我也不会C++(为什么说也呢,因为我用lucene写过搜索,但不会java),但不耽误我看代码,代码写得很漂亮,有兴趣的可以读读,一齐交流交流。
索引部分是将内容分词按照指定格式存储。锁有两个,一个是文件锁,另一个是mlock。
排序算法和某书说得有类似,但有所不同。
搜索部分先将索引必要信息拉到内存,然后进行搜索一系列动作(过滤,排序等),最终找到对应的id数组,然后一个个的到数据库(现在支持mysql,pgsql)拿。(lucene的必要索引信 ...
一个职位,多个猎头call,受不了猎头,今天去某著名网络公司面试。
刚开始让我笔试,题目不难,java的,很多不会,因为我很少用java。(用lucene时写过点,自从有了solr我就懒了)
技术面试,问了些我以往做得项目,其中一个哥们说“lucene么就是排序问题”,我差点笑出来,昨天看了该公司网站的搜索结果按照时间排序是错的。
最后另一哥们很坦白的说,java不行。
我如释重负的回来了,以后就可以告诉猎头们,我去过了,太烂了,人家不要。
个人总结:
能用开源达成的,我不会去code。高并发,这么多网站http://wiki.apache.org/solr/PublicServer ...
没有任何优化什么的,就是让丫能支持中文
搜索了下,发现solr的配置文章很多,但写的云里雾里,可能我理解力欠缺,所以写个和我一样笨,但是还不会配置又想玩的人。
solr1.4,分词采用IKAnalyzer最新,servlet采用tomcat6
1:修改tomcat目录下conf下的server.xml,查找8080,然后uriencoding=utf-8
完整的
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000& ...
圈子里有一位热心朋友发了个“Lucene学习者应该了解的全文检索的基本原理”,暂且不论是否宣传自己博客或者其他目的。
没有使用过全文检索的,基于solr能很快搭建自己的搜索,大致学习过程是如何安装搭建,然后就是学习如何解析xml(solr wiki上支持很多语言),一般也就花费1-2个小时最多了,快的么半小时搞定。这些内容网上一搜一大堆。
Lucene学习者无非几种情况:兴趣尝试学习,工作需要,深入研究。
只是搭个小型搜索(一般400-500万搜索),能搜到就可以的,那么solr可以很好的满足你。当然它也适合大中型网站(你可以看看wiki上应用它的网站)
当你觉得它不适合时,确实有条件深 ...
Apache Tika 是个文件内容提取工具
支持的格式很多 ,,详细
它+lucene,可以做个人的桌面搜索引擎,局域网文件管理搜索,mp3搜索等。
Zookeeper 以前看hadoop时看到过,没怎么留意。
最近看一博客又提到它,所以看了下,还是个不错的东西。集中式服务,基于它做分布式,可分组,solr1.5的另一个分布式就是基于它。 当然它现在为yahoo广泛使用。
使用它来让自己的程序分布式,,
btchina给封了,,今天verycd访问不了了,,很多网站服务器因手机黄色门给无辜关闭,我只能说伟大
看了看lucene,原来可以做很多应用,比如图书推荐,附近位置查询,sns的应用等。
数据越来越集中化,挖掘数据结合全文检索应该会产生很多应用。当然国内还在折腾种菜呢
关于性能,框架,我觉得有些人还是先了解,别动不动就来套性能,框架。
不是搜索就非得长得google,baidu样,不是所有框架都适合你需求。
NRT这个名词在lucene,solr的mail-list 比较多见,全称Near Real Time。。接近实时搜索。LinkedIn 的实时搜索 Zoie
我什么都不懂,只 ...
25 November 2009 - Lucene Java 3.0.0 available
The new version is mostly a cleanup release without any new features. All deprecations targeted to be removed in version 3.0 were removed. If you are upgrading from version 2.9.1 of Lucene, you have to fix all deprecation warnings in your code base to be ...
- 2009-11-27 09:20
- 浏览 1367
- 评论(0)
All these run on Lucene or Solr
Pioneer in blog searching: Technorati
Analyzing the Interaction: Scout Labs
Bottom-up relevance: digg.com
People are the content: LinkedIn
People and places: Yelp
Patterns from the people: Xmarks
FeaturedInnovators:
From harvesting to hand-picking: Fanfeedr
...
- 2009-11-11 10:13
- 浏览 906
- 评论(0)
This release fixes bugs from 2.9.0, including one serious bug whereby BooleanQuery could silently fail to retrieve certain matching documents.
There are also some minor API changes, including a Version parameter added to QueryParser and contrib Analyzers, so that version dependent defaults are consi ...
- 2009-11-11 10:01
- 浏览 674
- 评论(0)
下载连接 http://www.apache.org/dyn/closer.cgi/lucene/solr/
New Solr 1.4 features include
- Major performance enhancements in indexing, searching, and faceting
- Revamped all-Java index replication that’s simple to configure and
can replicate config files
- Greatly improved database integration via the D ...
- 2009-11-11 09:55
- 浏览 1112
- 评论(1)
简单的全文搜索,那么可以看下 solr,能自己解决最好
想要做下一个百度,谷歌的兄台,请饶了我。
做口碑的想做分词的可以参考 已知关键词的快速索引
想要找人写牛b分词的就此打住,我不会。
确实需要服务,请详细说明自己目前状况,甲流横行,小命要紧,我就不上门了。
需要爬虫,请详细说明需求信息。
没有搜索系统的
1: 委托搭建全文搜索的,请详细说明你需要怎么样的搜索
2:如果与其他系统配合,需要说明具体要求。
3:全部委托我开发,需说明具体要求
已有搜索系统,但碰到问题了,需要解决的(不要说solr,lucene以外的软件更别给我看代码)
1:硬件,运行系统
2:索引规模,每次索引增 ...
- 2009-11-04 21:21
- 浏览 1140
- 评论(0)