`
banditjava
  • 浏览: 160831 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

《Lucene+Nutch搜索引擎》看过以后。。。

阅读更多
研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。

就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都过于浅显,而且还存在很多错误,并不能解决实际问题。我现在的困惑就是,能google过来的资料缺乏深度,如何能进一步深入?

真正拥有搜索引擎技术的商业公司,由于商业秘密的原因,是不能对外公布其核心技术的,这样就造成搜索引擎技术只能掌握在少数人手里,造成学习这项技术的门槛是如此的高。

开源社区对我这样的搜索引擎技术菜鸟来说,可以说是最大的福音,有大量的开源代码可以研读,但是开源系统的通病是,相关资料很缺乏。

我跑遍了中关村所有大大小小的书店,铺天盖地C#,JAVA,FLEX,PHP,C++书,但关于搜索引擎的书,都只有一个小角落。所摆放的书普遍存在学院气息太重、陈旧、肤浅等特点、更有不着边际讲概念的。唉!

本着先入门再入行的原则,拿起了放在门口的《Lucene+Nutch搜索引擎》这本书,看起来很畅销。虽然心里想买回去可能也只看一遍,但是还是拍下了50大元。不但给自己安慰,好歹此书的内容离我研究的开源搜索引擎技术最为接近了。

对于此书的内容,其实我也不想有过多恶评,毕竟这只能算是一个扫盲级工具。或许这是我对现有能找到的搜索引擎资料不满的一个侧面写照。

我真正苛求的是,搜索引擎的真正核心技术的资料,大量的,深入的。描述排序算法的学术报告,如何能够通过高效压缩技术保证文件快速归档与读写,分级缓存并发更新机制,机器学习分词及语义理解,智能自我管理分布式集群,压榨硬件性能的若干办法。。。

不写了,太多了。这还是我能想到的,还有Jeff Dean这种大牛已经现实了的,我们并不知道的东东。

已经深夜,我却“奋”着呢,思考一下平时上班时没时间考虑的问题。在没有更好的办法出现之前,我还会坚持google,坚持open my eyes看代码,坚持买只想看一次的书,坚持在javaeye上“愤”文章。

为了回馈开源社区,我现在能做到的是,尽量把我掌握的技术点blog出来,甚至成了一个dev,直接贡献代码。
分享到:
评论
12 楼 w156445045 2012-11-24  
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢谢。
11 楼 sd1992585 2010-09-16  
哎 小弟也在研究搜索引擎, 这方面资料真是少的可怜啊。。。。

要不就是过气的 要不就是很肤浅。。。。还望老兄能多贡献点资料~
10 楼 john2007 2009-01-13  
深入研究就得看最新的文献了。EBSCO, Elsevier,ieee
9 楼 syan 2008-11-24  
那本书真是垃圾
我上个星期买的
8 楼 banditjava 2008-11-05  
pango 写道

在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文

多谢提醒!
7 楼 pango 2008-11-05  
在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文
6 楼 banditjava 2008-10-24  
chenlb 写道

此书什么烂。唉!

此书属于泛泛介绍,真要研究还是看源码的比较好
5 楼 chenlb 2008-10-23  
此书什么烂。唉!
4 楼 monner 2008-10-07  
国庆几天假期也在捣腾了nutch
在老兄的博客的帮助提示下,俺也顺利的运转上了nutch,
顺着老兄的思路依葫芦画瓢,我也把中文分词插件换成了PaodingAnalyzer
发现一个问题如下:

直接在命令行下运行paodinganalyzer发现分词效果十分不错
但是在插件中运行的分词效果好像不怎么样,差别很大。
具体我摘录了些log如下:
一、命令行下:(我采取的分词模式是max-word-length)

paoding> 中华人民共和国
paoding> ;
1:      中华人民共和国/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 7字符, 分 1个词
        分词耗时 31ms
--------------------------------------------------
paoding> 上海自来水来是海上;
1:      上海/自来水/海上/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 9字符, 分 3个词
        分词耗时 0ms
--------------------------------------------------
效果非常满意!!!

二、插件下,log摘自tomcat/logs/stdout*.log
注:“###”开头行是我自己修改Paoding代码后打印的log

2008-10-07 00:11:04,718 INFO  NutchBean - query request from 127.0.0.1
2008-10-07 00:11:05,062 INFO  NutchBean - ##Query.parse() Param: 中华人民共和国|queryLang=zh
2008-10-07 00:11:05,468 INFO  ChineseAnalyzer - ##Init ChineseAnalyzer().
2008-10-07 00:11:06,140 INFO  NutchBean - query: 中华人民共和国
2008-10-07 00:11:06,140 INFO  NutchBean - lang: zh
2008-10-07 00:11:07,703 INFO  NutchBean - searching for 20 raw hits
2008-10-07 00:11:09,703 INFO  NutchBean - re-searching for 40 raw hits, query: 中 华 民 共 国 -site:"www.gd.abc"
^^^^^^^^^^^^^^^^^基本没有效果,完全是分为单个汉字!!!!
2008-10-07 00:11:10,328 INFO  NutchBean - found 16 raw hits
2008-10-07 00:11:14,984 INFO  NutchBean - total hits: 173


不知道是什么地方有问题,我自认为我的基本配置都应该无问题,请老兄帮忙分析下。


BTW:我也仔细试用了你的so.21315.com,发现应该也有同样的问题,不知道老兄有没有好多测试下。

3 楼 monner 2008-10-06  
哈哈~~~~bandi兄真言矣~快餐式的赚钱工具而已,目前技术书籍以这种偏多!
好多书都是名字起得够鼓动人,封面设计的够玄,能够吸引眼球而已。
我也是国庆期间在书店驻足翻看了半小时,最后决定不买。

---
但愿老兄的Blog积累到一定时候,整理出版一本,俺定捧场。

每次来看到老兄的博没有更新,俺就好失落。
2 楼 banditjava 2008-10-06  
嘿嘿,扫盲级工具,我都说得很客气了,它还是赚钱工具呢
1 楼 crazyox 2008-10-06  
“一个扫盲级工具”,严重同意,哈哈,我也看了,只看了一点就不想再看了。。。

相关推荐

    漫画作品与时间旅行题材.doc

    漫画作品与时间旅行题材

    基于SpringBoot框架的的在线视频教育平台的设计与实现(含完整源码+完整毕设文档+PPT+数据库文件).zip

    Spring Boot特点: 1、创建一个单独的Spring应用程序; 2、嵌入式Tomcat,无需部署WAR文件; 3、简化Maven配置; 4、自动配置Spring; 5、提供生产就绪功能,如指标,健康检查和外部配置; 6、绝对没有代码生成和XML的配置要求;第一章 绪 论 1 1.1背景及意义 1 1.2国内外研究概况 2 1.3 研究的内容 2 第二章 关键技术的研究 3 2.1 相关技术 3 2.2 Java技术 3 2.3 ECLIPSE 开发环境 4 2.4 Tomcat介绍 4 2.5 Spring Boot框架 5 第三章 系统分析 5 3.1 系统设计目标 6 3.2 系统可行性分析 6 3.3 系统功能分析和描述 7 3.4系统UML用例分析 8 3.4.1管理员用例 9 3.4.2用户用例 9 3.5系统流程分析 10 3.5.1添加信息流程 11 3.5.2操作流程 12 3.5.3删除信息流程 13 第四章 系统设计 14 4.1 系统体系结构 15 4.2 数据库设计原则 16 4.3 数据表 17 第五章 系统实现 18 5.1用户功能模块 18 5.2

    PyTorch入门指南:从零开始掌握深度学习框架.pdf

    内容概要:本文作为PyTorch的入门指南,首先介绍了PyTorch相较于TensorFlow的优势——动态计算图、自动微分和丰富API。接着讲解了环境搭建、PyTorch核心组件如张量(Tensor)、autograd模块以及神经网络的定义方式(如nn.Module),并且给出了详细的神经网络训练流程,包括前向传播、计算损失值、进行反向传播以计算梯度,最终调整权重参数。此外还简要提及了一些拓展资源以便进一步探索这个深度学习工具。 适用人群:初次接触深度学习技术的新学者和技术爱好者,有一定程序基础并希望通过PyTorch深入理解机器学习算法实现的人。 使用场景及目标:该文档有助于建立使用者对于深度学习及其具体实践有更加直观的理解,在完成本教程之后,读者应当能够在个人设备上正确部署Python环境,并依据指示独立创建自己的简易深度学习项目。 其他说明:文中所提及的所有示例均可被完整重现,同时官方提供的资料链接也可以方便有兴趣的人士对感兴趣之处继续挖掘,这不仅加深了对PyTorch本身的熟悉程度,也为未来的研究或者工程项目打下了良好的理论基础和实践经验。

    古镇美食自驾游:舌尖上的历史韵味.doc

    古镇美食自驾游:舌尖上的历史韵味

    基于人工神经网络(ANN)的高斯白噪声的系统识别 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    漫画作品与神话传说融合.doc

    漫画作品与神话传说融合

    实时电价机制下交直流混合微网优化运行方法 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    ADC推理软件AI程序

    ADC推理软件AI程序

    漫画作品与科幻元素融合.doc

    漫画作品与科幻元素融合

    【电缆】中压电缆局部放电的传输模型研究 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于人工神经网络的类噪声环境声音声学识别 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    多约束、多车辆VRP问题 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于麻雀搜索算法(SSA)优化长短期记忆神经网络参数SSA-LSTM冷、热、电负荷预测 附Python代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    java-springboot+vue景区民宿预约系统实现源码(完整前后端+mysql+说明文档+LunW+PPT).zip

    java-springboot+vue景区民宿预约系统实现源码(完整前后端+mysql+说明文档+LunW+PPT).zip

    56页-智慧园区解决方案(伟景行).pdf

    在智慧城市建设的大潮中,智慧园区作为其中的璀璨明珠,正以其独特的魅力引领着产业园区的新一轮变革。想象一下,一个集绿色、高端、智能、创新于一体的未来园区,它不仅融合了科技研发、商业居住、办公文创等多种功能,更通过深度应用信息技术,实现了从传统到智慧的华丽转身。 智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化,彻底颠覆了传统园区的管理模式。在这里,基础设施的数据收集与分析让管理变得更加主动和高效,从温湿度监控到烟雾报警,从消防水箱液位监测到消防栓防盗水装置,每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控,更是在节能降耗的同时,极大地提升了园区的运维效率。更令人兴奋的是,通过智慧监控、人流统计和自动访客系统等高科技手段,园区的安全防范能力得到了质的飞跃,让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。 更令人瞩目的是,智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈,还是享受便捷的电商服务、法律咨询和融资支持,亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率,智慧园区都以其全面、专业、高效的服务,为企业的发展插上了腾飞的翅膀。而这一切的背后,是大数据、云计算、人工智能等前沿技术的深度融合与应用,它们如同智慧的大脑,让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区,就像踏入了一个充满无限可能的未来世界,这里不仅有科技的魅力,更有生活的温度,让人不禁对未来充满了无限的憧憬与期待。

    边境自驾游异国风情深度体验.doc

    边境自驾游异国风情深度体验

    武汉东湖高新集团智慧园区 22页PPT(21页).pptx

    在智慧城市建设的大潮中,智慧园区作为其中的璀璨明珠,正以其独特的魅力引领着产业园区的新一轮变革。想象一下,一个集绿色、高端、智能、创新于一体的未来园区,它不仅融合了科技研发、商业居住、办公文创等多种功能,更通过深度应用信息技术,实现了从传统到智慧的华丽转身。 智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化,彻底颠覆了传统园区的管理模式。在这里,基础设施的数据收集与分析让管理变得更加主动和高效,从温湿度监控到烟雾报警,从消防水箱液位监测到消防栓防盗水装置,每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控,更是在节能降耗的同时,极大地提升了园区的运维效率。更令人兴奋的是,通过智慧监控、人流统计和自动访客系统等高科技手段,园区的安全防范能力得到了质的飞跃,让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。 更令人瞩目的是,智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈,还是享受便捷的电商服务、法律咨询和融资支持,亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率,智慧园区都以其全面、专业、高效的服务,为企业的发展插上了腾飞的翅膀。而这一切的背后,是大数据、云计算、人工智能等前沿技术的深度融合与应用,它们如同智慧的大脑,让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区,就像踏入了一个充满无限可能的未来世界,这里不仅有科技的魅力,更有生活的温度,让人不禁对未来充满了无限的憧憬与期待。

    ,,CAD、DXF导图,自动进行位置路径规划,源码可进行简单功能添加实现设备所需功能,已经在冲孔机,点胶机上应用,性价比超高 打孔机实测一分钟1400个孔 ,CAD、DXF导图;自动位置路径规划;源

    ,,CAD、DXF导图,自动进行位置路径规划,源码可进行简单功能添加实现设备所需功能,已经在冲孔机,点胶机上应用,性价比超高。 打孔机实测一分钟1400个孔 ,CAD、DXF导图;自动位置路径规划;源码功能添加;设备功能实现;冲孔机点胶机应用;高性价比。,CAD导图DXF,自动规划位置路径,实测打孔速度惊人!性价比超高冲孔机实现多功能定制

    一种鲁棒的可变功率分数LMS算法研究 附Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

Global site tag (gtag.js) - Google Analytics