`
banditjava
  • 浏览: 159842 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

《Lucene+Nutch搜索引擎》看过以后。。。

阅读更多
研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。

就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都过于浅显,而且还存在很多错误,并不能解决实际问题。我现在的困惑就是,能google过来的资料缺乏深度,如何能进一步深入?

真正拥有搜索引擎技术的商业公司,由于商业秘密的原因,是不能对外公布其核心技术的,这样就造成搜索引擎技术只能掌握在少数人手里,造成学习这项技术的门槛是如此的高。

开源社区对我这样的搜索引擎技术菜鸟来说,可以说是最大的福音,有大量的开源代码可以研读,但是开源系统的通病是,相关资料很缺乏。

我跑遍了中关村所有大大小小的书店,铺天盖地C#,JAVA,FLEX,PHP,C++书,但关于搜索引擎的书,都只有一个小角落。所摆放的书普遍存在学院气息太重、陈旧、肤浅等特点、更有不着边际讲概念的。唉!

本着先入门再入行的原则,拿起了放在门口的《Lucene+Nutch搜索引擎》这本书,看起来很畅销。虽然心里想买回去可能也只看一遍,但是还是拍下了50大元。不但给自己安慰,好歹此书的内容离我研究的开源搜索引擎技术最为接近了。

对于此书的内容,其实我也不想有过多恶评,毕竟这只能算是一个扫盲级工具。或许这是我对现有能找到的搜索引擎资料不满的一个侧面写照。

我真正苛求的是,搜索引擎的真正核心技术的资料,大量的,深入的。描述排序算法的学术报告,如何能够通过高效压缩技术保证文件快速归档与读写,分级缓存并发更新机制,机器学习分词及语义理解,智能自我管理分布式集群,压榨硬件性能的若干办法。。。

不写了,太多了。这还是我能想到的,还有Jeff Dean这种大牛已经现实了的,我们并不知道的东东。

已经深夜,我却“奋”着呢,思考一下平时上班时没时间考虑的问题。在没有更好的办法出现之前,我还会坚持google,坚持open my eyes看代码,坚持买只想看一次的书,坚持在javaeye上“愤”文章。

为了回馈开源社区,我现在能做到的是,尽量把我掌握的技术点blog出来,甚至成了一个dev,直接贡献代码。
分享到:
评论
12 楼 w156445045 2012-11-24  
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢谢。
11 楼 sd1992585 2010-09-16  
哎 小弟也在研究搜索引擎, 这方面资料真是少的可怜啊。。。。

要不就是过气的 要不就是很肤浅。。。。还望老兄能多贡献点资料~
10 楼 john2007 2009-01-13  
深入研究就得看最新的文献了。EBSCO, Elsevier,ieee
9 楼 syan 2008-11-24  
那本书真是垃圾
我上个星期买的
8 楼 banditjava 2008-11-05  
pango 写道

在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文

多谢提醒!
7 楼 pango 2008-11-05  
在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文
6 楼 banditjava 2008-10-24  
chenlb 写道

此书什么烂。唉!

此书属于泛泛介绍,真要研究还是看源码的比较好
5 楼 chenlb 2008-10-23  
此书什么烂。唉!
4 楼 monner 2008-10-07  
国庆几天假期也在捣腾了nutch
在老兄的博客的帮助提示下,俺也顺利的运转上了nutch,
顺着老兄的思路依葫芦画瓢,我也把中文分词插件换成了PaodingAnalyzer
发现一个问题如下:

直接在命令行下运行paodinganalyzer发现分词效果十分不错
但是在插件中运行的分词效果好像不怎么样,差别很大。
具体我摘录了些log如下:
一、命令行下:(我采取的分词模式是max-word-length)

paoding> 中华人民共和国
paoding> ;
1:      中华人民共和国/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 7字符, 分 1个词
        分词耗时 31ms
--------------------------------------------------
paoding> 上海自来水来是海上;
1:      上海/自来水/海上/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 9字符, 分 3个词
        分词耗时 0ms
--------------------------------------------------
效果非常满意!!!

二、插件下,log摘自tomcat/logs/stdout*.log
注:“###”开头行是我自己修改Paoding代码后打印的log

2008-10-07 00:11:04,718 INFO  NutchBean - query request from 127.0.0.1
2008-10-07 00:11:05,062 INFO  NutchBean - ##Query.parse() Param: 中华人民共和国|queryLang=zh
2008-10-07 00:11:05,468 INFO  ChineseAnalyzer - ##Init ChineseAnalyzer().
2008-10-07 00:11:06,140 INFO  NutchBean - query: 中华人民共和国
2008-10-07 00:11:06,140 INFO  NutchBean - lang: zh
2008-10-07 00:11:07,703 INFO  NutchBean - searching for 20 raw hits
2008-10-07 00:11:09,703 INFO  NutchBean - re-searching for 40 raw hits, query: 中 华 民 共 国 -site:"www.gd.abc"
^^^^^^^^^^^^^^^^^基本没有效果,完全是分为单个汉字!!!!
2008-10-07 00:11:10,328 INFO  NutchBean - found 16 raw hits
2008-10-07 00:11:14,984 INFO  NutchBean - total hits: 173


不知道是什么地方有问题,我自认为我的基本配置都应该无问题,请老兄帮忙分析下。


BTW:我也仔细试用了你的so.21315.com,发现应该也有同样的问题,不知道老兄有没有好多测试下。

3 楼 monner 2008-10-06  
哈哈~~~~bandi兄真言矣~快餐式的赚钱工具而已,目前技术书籍以这种偏多!
好多书都是名字起得够鼓动人,封面设计的够玄,能够吸引眼球而已。
我也是国庆期间在书店驻足翻看了半小时,最后决定不买。

---
但愿老兄的Blog积累到一定时候,整理出版一本,俺定捧场。

每次来看到老兄的博没有更新,俺就好失落。
2 楼 banditjava 2008-10-06  
嘿嘿,扫盲级工具,我都说得很客气了,它还是赚钱工具呢
1 楼 crazyox 2008-10-06  
“一个扫盲级工具”,严重同意,哈哈,我也看了,只看了一点就不想再看了。。。

相关推荐

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    Lucene+Nutch搜索引擎开发.王学松源代码

    《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...

    Lucene+nutch搜索引擎开发(全本2-1)

    Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    Lucene+nutch搜索引擎开发 源代码

    《Lucene+nutch搜索引擎开发》书附带的源代码

    Lucene+nutch搜索引擎开发(全本2-2)

    Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分

    lucene+nutch搜索引擎开发源码1

    《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...

    Lucene+nutch搜索引擎开发(源代码)

    《Lucene+nutch搜索引擎开发(源代码)》是关于构建搜索引擎的一个重要资源,它结合了Apache Lucene和Nutch两大开源技术,旨在帮助开发者深入了解搜索引擎的工作原理并实践相关开发。Lucene是一个强大的全文检索库,...

    lucene+nutch搜索引擎

    《Lucene+Nutch搜索引擎》是一本深入探讨如何利用开源搜索引擎技术构建高效检索系统的书籍。它主要围绕Apache Lucene和Nutch这两个核心项目展开,旨在帮助读者理解和掌握搜索引擎的基础原理及其实现方法。 Lucene是...

    Lucene+nutch搜索引擎开发 PDF 2/2

    完整的《Lucene+nutch搜索引擎开发》pdf版一共有83.6M,无奈我上传的上限是80M,所以切成两个。这个是副文件,还有个主文件http://download.csdn.net/detail/spring123tt/4361166 ,解压时,将两个文件放在一起解压...

    lucene+nutch搜索引擎开发源码2

    《构建基于Lucene+Nutch的搜索引擎》 在现代互联网时代,搜索引擎已经成为我们获取信息不可或缺的工具。本资料主要探讨如何利用开源项目Lucene和Nutch构建一个完整的搜索引擎系统,这是一份关于“lucene+nutch搜索...

    lucene+nutch搜索引擎(1-11章源码)

    《深入剖析Lucene+Nutch搜索引擎》 在信息技术领域,搜索引擎是不可或缺的一部分,它极大地提高了我们获取网络信息的效率。Lucene和Nutch是两个在开源社区中广泛使用的搜索引擎技术,它们各自扮演着重要的角色。本...

    lucene+nutch搜索引擎开发原书配套源码part_2

    lucene+nutch搜索引擎开发原书配套源码part_2

    lucene+nutch搜索引擎开发原书配套源码part_1

    lucene+nutch搜索引擎开发原书配套源码part_1

    lucene+nutch搜索引擎光盘源码(1-8章)

    《lucene+nutch搜索引擎光盘源码(1-8章)》是一套全面解析Lucene和Nutch搜索引擎技术的源代码教程,涵盖了从基础到进阶的多个层面。这套资源包含8个章节的源码,由于文件大小限制,被分成了多个部分进行上传。 ...

    Lucene+Nutch搜索引擎开发(配套光盘资源)

    《Lucene+Nutch搜索引擎开发》是一本专注于搜索引擎技术的书籍,配套光盘资源为学习者提供了丰富的实践材料,尤其对于想要深入理解Nutch搜索引擎开发的读者来说,这是一份不可多得的学习资料。Nutch是基于Apache ...

Global site tag (gtag.js) - Google Analytics