- 浏览: 160404 次
- 性别:
- 来自: 北京
最新评论
-
w156445045:
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢 ...
《Lucene+Nutch搜索引擎》看过以后。。。 -
inprice:
这也要研究啊!!!!! 失望ing.........
完成了对于heritrix的初步研究 -
dt_fb:
您好,我想问问您,你有跳过recrawl.sh这个脚本文件么? ...
Nutch开源搜索引擎的crawl日志分析及工作目录说明 -
lovepoem:
能增量吗?是不是还是把所有的url遍历出来。和以前的对比。算是 ...
Nutch开源搜索引擎增量索引recrawl的终极解决办法 -
itang:
见到牛人照片了, MS下巴动过刀(开玩笑)
搜索引擎名人堂之Jeff Dean
文章列表
Lucene索引结构可以分为索引、索引段、索引文档、索引域和索引项几个不同层次。lucene每个索引的结构由一个或者多个段组成,每个段包含一个或多个文档,每个文档管理了一个或者多个域,每个域由一个或多个索引项组成,每 ...
在我之前的Nutch爬虫试验中,是调用crawl命令直接抓取,在深入学习crawl时,发现具体的运营过程当中,需要更精细的控制整个crawl抓取过程,下面就针对nutch两种方式做一个比较。
方式一:nutch局域网抓取
$ bin/nutch crawl urls -dir craw ...
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。
可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。
crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter.txt和nutch-site.xml来配合运行,这一点在之前的文章中都提到过,就不再赘述了。
下面是我用来crawl的命令
> bin/nutch crawl urls -dir crawl ...
在网上搜索一些资料时,发现搜索引擎最热的关键字排名很意思,下面是文章的摘要,共享一下
雅虎年度十大关键词出炉不久,另一大搜索引擎公司Google的关键词搜索Top10也于 2007-12-05出炉,热门数码产品iphone位居榜首。另 ...
- 2008-09-18 14:05
- 浏览 1623
- 评论(0)
做了这么多年的技术,一直潜水至今,自己都狂汗,现在吧,突然想站出来喊两嗓子了。从最初的程序员到现在的管理岗位,对于技术一直都默默追求,甚至到了一两个星期不整点新东西就有点空虚的地步,但我一直没不敢在众 ...
- 2008-09-12 11:34
- 浏览 1406
- 评论(4)
---------------20080828------------
下载源码,初步研究
--------------20080829-------------
http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx
前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的系统。
去网上搜索了一下,发现了一篇很好的知道文档,这个给出链接地址
http://wiki.apache.org/nutch/NutchHadoopTutorial
按照这个上面的做,如果你运 ...
-----------------------20080827-------------------
深入了解hadoop
http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html
一、前提和设计目标
1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效 ...
--------------------20080819------------
参考文章
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/
http://hi.baidu.com/zeorliu/blog/item/36334682 ...
技术点:
需要整理研究的搜索引擎技术点(目录,无实际价值)
(一)中文分词部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
5.1,数字英文分词算法设计
5.2,中文分词算法设计
(二)分词应用部分----------由paoding来解决,但下面的项目是否全部解决,还没有验证
1,标签抽取
2,文本相关性与文本分类
2.1,SVM算法
(三)Web Spider开发---------- ...
- 2008-09-11 15:56
- 浏览 1767
- 评论(3)
-------------------20080731------------------
修改前端界面,修改成类似baidu的风格
修改index.jsp和results.jsp
研究IndexHTML.java
1)在meta中有中文,就解析不过去了
<meta name="keywords" content="范怡文,歌手,董事长,电子商务,b2b,商业,金融,商界精英,创业,商机,信用记录,信网,中国信网,信用记录" >
<meta name="description" content="关注产 ...
---------------------------------------------------20080729---------------------------------------------------
理解疱丁分词的基本原理,编译原码,用ANT编译
E:\workspace\searchengine\paoding-analysis-2.0.4-beta
完成了中文分词的solr集成工作,集成到solr中去,
注意:
1)需要将solr的tomcat的connector改成可接受utf8
<Connector port="8080&qu ...
---------------------------------------------------20080728---------------------------------------------------
完成了对于heritrix的初步研究,需要用maven1.1来编译
E:\workspace\searchengine\heritrix\heritrix-1.14.0
maven disst -Dmaven.test.skip=true
<开发期>
在run dialog中配置org.archive.crawler.Heritrix
在Argment ...
- 2008-09-11 15:52
- 浏览 2012
- 评论(1)
--------------------20080725------------------------------
apache-solr-1.2.0\example\exampledocs下面执行
java -Durl=http://localhost:8080/solr/update -jar post.jar cybertron.xml
jetty
java -Durl=http://localhost:8983/solr/update -jar post.jar cybertron.xml
完成了对于solr环境搭建
1)调整conf/schema.xml定义field,重新生成 ...
------------20080724-------------
通过控制台来启动lucene应用程序
step1.建立索引
>java org.apache.lucene.demo.IndexFiles C:\Java\lucene-1.4\src
将对C:\Java\lucene-1.4\src下所有文件建立索引,同时,在当前命令行位置将生成“index”文件夹。
step2.执行查询
>java org.apache.lucene.demo.SearchFiles
将会出现“Query:”提示符,在其后输入关键字,回车,即可得到查询结果。
Web应用程序
step1.将lu ...
老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的经验,如何是好呢?这时我脑袋里闪过的,就是需要求助开源社区了。
...
- 2008-09-11 15:41
- 浏览 25880
- 评论(39)