最新文章列表

搜索引擎名人堂之Jeff Dean

最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。   看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。   我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。   他曾参与了 go ...
banditjava 评论(1) 有14976人浏览 2008-09-22 15:09

Lucene于搜索引擎技术(Analysis包详解)

Analysis 包分析 算法和数据结构分析 : 由于 Analysis 包比较简单 , 不详述了 ! 算法 : 基于机械分词 1-gram,2- ...
banditjava 评论(1) 有2223人浏览 2008-09-22 14:55

Lucene与搜索引擎技术(Document包详解)

Document 包分析 理解 Document Lucene 没有定义数据源 , 而是定义了一个通用的文档结构 , 这个文档结构就是 LuceneDocument 包下的 Document 类 . 一个 Document 对应于你在进 ...
banditjava 评论(0) 有1723人浏览 2008-09-22 14:54

Lucene的查询语法

原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm 绪论 Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。 本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器, ...
banditjava 评论(2) 有1414人浏览 2008-09-22 14:53

Lucene与搜索引擎技术(index包详解)

Index包分析 原创:windshow TjuAILab Lucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term) 其中Index为Document的序列     ...
banditjava 评论(0) 有2057人浏览 2008-09-22 13:49

Lucene倒排索引原理

Lucene倒排索引原理 xzall 原创  (参与分:2747,专家分:140)   发表:2004-08-04 10:12   版本:1.0   阅读:2652次     Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guan ...
banditjava 评论(0) 有1600人浏览 2008-09-22 13:48

Lucene开源搜索引擎的索引目录结构

Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成,每个段包含一个或多个文 ...
banditjava 评论(0) 有2616人浏览 2008-09-22 10:22

Nutch开源搜索引擎crawl的两种方式比较

在我之前的Nutch爬虫试验中,是调用crawl命令直接抓取,在深入学习crawl时,发现具体的运营过程当中,需要更精细的控制整个crawl抓取过程,下面就针对n ...
banditjava 评论(1) 有4248人浏览 2008-09-22 10:19

Nutch开源搜索引擎的crawl日志分析及工作目录说明

看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。 可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。 crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
banditjava 评论(1) 有3864人浏览 2008-09-19 17:42

FTP的两种工作方式及对应的防火墙配置

ftp 有两种模式, 一种方式叫做Standard (也就是 Active,主动方式),   一种是 Passive (也就是PASV,被动方 式)。    Standard模式 FTP的客户端发送 PORT 命令到FTP server。   Passive ...
koolhazz 评论(0) 有742人浏览 2008-09-13 16:05

Google的发展对我们的影响

Google要发射卫星了!   以他的经济实力势必在将来为地球上每个人提供一台主机,或者说为整个地球提供一台超大计算机让所有的人通过各种各样的终 ...
CharlesCui 评论(1) 有1291人浏览 2008-09-12 10:19

研究Nutch开源搜索引擎心得记录

---------------20080828------------ 下载源码,初步研究 --------------20080829------------- http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的 ...
banditjava 评论(1) 有3627人浏览 2008-09-11 16:07

深入了解Hadoop

-----------------------20080827------------------- 深入了解hadoop http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html 一、前提和设计目标 1、硬件错误是常态,而非异 ...
banditjava 评论(0) 有2225人浏览 2008-09-11 16:05

研究hadoop分布式计算平台及三台服务器的实现

--------------------20080819------------ 参考文章 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html http://ww ...
banditjava 评论(1) 有3132人浏览 2008-09-11 16:03

开始改造lucene的demo,为我所用

-------------------20080731------------------ 修改前端界面,修改成类似baidu的风格 修改index.jsp和results.jsp 研究IndexHTML.java 1)在meta中有中文,就解析不过去了 <meta name="keywords" content="范怡文,歌手,董事长,电子商务,b2b,商业 ...
banditjava 评论(0) 有2527人浏览 2008-09-11 15:54

完成了paoding与lucene的集成

---------------------------------------------------20080729--------------------------------------------------- 理解疱丁分词的基本原理,编译原码,用ANT编译 E:\workspace\searchengine\paoding-analysis-2.0.4-beta 完成了中文分词的 ...
banditjava 评论(1) 有5030人浏览 2008-09-11 15:53

研究一下solr

--------------------20080725------------------------------ apache-solr-1.2.0\example\exampledocs下面执行 java -Durl=http://localhost:8080/solr/update -jar post.jar cybertron.xml jetty java -Durl=http://l ...
banditjava 评论(0) 有2023人浏览 2008-09-11 15:51

完成了对于lucene的初步理解和环境搭建

------------20080724------------- 通过控制台来启动lucene应用程序 step1.建立索引 >java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src 将对C:\Java\lucene-1.4\src下所有文件建立索引,同时,在当前命令行位置将生成“index”文件夹。 step2.执行查询 ...
banditjava 评论(8) 有4067人浏览 2008-09-11 15:50

HTTP header中的 Cache-control

http://www.yiteblog.cn/archives/62[size=medium;]Cache-control常见的取值有private、no-cache、max-age、must-revalidate等[/size]网页的缓存是由HTTP消息头中的“Cache-control”来控制的,常见的取值有private、no-cache、max-age、must-revalidate等,默认 ...
letle 评论(0) 有2567人浏览 2008-09-03 10:53

异常:Illegal access: this web application instance h

重启tomcat的时候遇到这么个异常 信息: Illegal access: this web application instance has been stopped already. Could not load java.lang.Object. The eventual following stack trace is caused by an error thrown ...
guooo 评论(0) 有26950人浏览 2008-09-02 12:00

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

互联网博客电子书下载排行

    >>浏览更多下载

    互联网最新博客评论

    Global site tag (gtag.js) - Google Analytics