本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
搜索引擎名人堂之Jeff Dean
最近一直在研究Nutch,所以关注到了搜索引擎界的一些名人,以示榜样。
看了《程序员》2008年9月刊,第一篇文章就是介绍这位神人的,他就是Google的软件架构师Jeff Dean。
我们在工作和生活中都会用到google等搜索引擎,而在那异常简洁的页面和搜索按钮后面都进行着大量的计算。每一个google的用户都在享受着这个软件架构天才对于搜索引擎的贡献。
他曾参与了 go ...
Lucene与搜索引擎技术(Document包详解)
Document
包分析
理解
Document
Lucene
没有定义数据源
,
而是定义了一个通用的文档结构
,
这个文档结构就是
LuceneDocument
包下的
Document
类
.
一个
Document
对应于你在进 ...
Lucene的查询语法
原文来自:http://liyu2000.nease.net/article/Lucene/queryparsersyntax.htm
绪论
Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。
本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器, ...
Lucene与搜索引擎技术(index包详解)
Index包分析
原创:windshow TjuAILab
Lucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term)
其中Index为Document的序列
...
Lucene倒排索引原理
Lucene倒排索引原理
xzall 原创 (参与分:2747,专家分:140) 发表:2004-08-04 10:12 版本:1.0 阅读:2652次
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:
0)设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guan ...
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。
可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。
crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
FTP的两种工作方式及对应的防火墙配置
ftp
有两种模式,
一种方式叫做Standard (也就是 Active,主动方式),
一种是 Passive (也就是PASV,被动方
式)。
Standard模式 FTP的客户端发送 PORT 命令到FTP server。
Passive ...
研究Nutch开源搜索引擎心得记录
---------------20080828------------
下载源码,初步研究
--------------20080829-------------
http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx
前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的 ...
深入了解Hadoop
-----------------------20080827-------------------
深入了解hadoop
http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html
一、前提和设计目标
1、硬件错误是常态,而非异 ...
研究hadoop分布式计算平台及三台服务器的实现
--------------------20080819------------
参考文章
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html
http://ww ...
开始改造lucene的demo,为我所用
-------------------20080731------------------
修改前端界面,修改成类似baidu的风格
修改index.jsp和results.jsp
研究IndexHTML.java
1)在meta中有中文,就解析不过去了
<meta name="keywords" content="范怡文,歌手,董事长,电子商务,b2b,商业 ...
完成了paoding与lucene的集成
---------------------------------------------------20080729---------------------------------------------------
理解疱丁分词的基本原理,编译原码,用ANT编译
E:\workspace\searchengine\paoding-analysis-2.0.4-beta
完成了中文分词的 ...
完成了对于lucene的初步理解和环境搭建
------------20080724-------------
通过控制台来启动lucene应用程序
step1.建立索引
>java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src
将对C:\Java\lucene-1.4\src下所有文件建立索引,同时,在当前命令行位置将生成“index”文件夹。
step2.执行查询 ...
异常:Illegal access: this web application instance h
重启tomcat的时候遇到这么个异常
信息: Illegal access: this web application instance has been stopped already. Could not load java.lang.Object. The eventual following stack trace is caused by an error thrown ...