- 浏览: 74268 次
- 性别:
- 来自: 北京
最新评论
-
虾米小兵:
这个脚本我没看到新产生的索引与原来的索引进行比较并去重的过程。 ...
nutch研究记录3(增量爬行) -
chenhong198986:
写的挺好!
多多学习,天天进步! -
小林信仁:
呵呵,还不错。
windows系统 3389远程监控登录信息(记录IP) -
jerry.chen:
望加QQ:519582864 想详细向你请教,谢谢!
nutch主流程代码阅读心得。 -
comsci:
非常不错的东西,通过这个文章,我们可以对搜索引擎的建立有更加深 ...
nutch主流程代码阅读心得。
文章列表
中文分词配置好后,需要对源代码进行一些修改,否则在爬虫和搜索时候不能正确分词。中文分词器回头一起补充上。我的nutch版本1.0。(修改打包,放到lib包中,记得将跟目录上的nutch.job删掉。)
爬虫
:org.apache.nutch.indexer.lucene.LuceneWriter 需要对write方法进行一些修改,以中文分词为主。nutch默认加载en分词器。
public void write(NutchDocument doc) throws IOException {
final Document luceneDoc = createLuceneDoc ...
- 2009-10-29 20:45
- 浏览 1677
- 评论(1)
1,策略模式:
定义了算法族,将算法分门别类封装起来,让算法之间可以互相替换,此模式让算法的变化独立于使用算法的客户,算法之间可以动态进行相互替换,很适合于同策略多行为的项目。
2.1,观察者模式
定义对象之间的一对多关系,这样一来,当“一”对象状态改变时,“多”所有对象都会得到通知并且自动更新。
- 2009-10-28 21:20
- 浏览 790
- 评论(0)
得多花些时间先把规则先看了,然后才能答题,如果不认真读,反复答个7、8遍都没搞定,想在javaeye玩,真门槛高还真不是吹的。
很早以前就想对自己感兴趣的帖子发问,呵呵,不过一直没去javaeye考试,就只能拖到现在才去考试,终于通过了,麻烦(牢骚)。。
- 2009-09-14 10:21
- 浏览 722
- 评论(0)
这几天,新的旅程开始
- 博客分类:
- 初步涉及
报名参加了一个英语培训班,测试后从初级开始,也就所谓的0起点,学期是半年。给自己加油一下,希望通过这次学习提高自己,能看看英文文档,到E文网站去查查资料,加油。。
- 2009-09-01 09:42
- 浏览 850
- 评论(0)
注意,tomcat和nutch路径需要修改成自己的
# nutch更目录
NUTCH_HOME=/cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
# tomcat目录
CATALINA_HOME=/cygdrive/d/JavaTools/apache-tomcat-6.0.14
还有批量将crawled/替换为你的索引存储目录。
将该shell代码保存到你的爬虫nutch更目录下,可任意命名(如:runbot)
然后在cygwin里直接输入一下文件名就可以运行
#!/bin/sh
# runbot scrip ...
- 2009-07-06 00:22
- 浏览 5908
- 评论(6)
2. 搜索器配置。
a) 将nutch-1.0.war部署到tomcat上,第一次部署tomcat会报错,没关系,因为还没进行配置,我们目的在于解压出nutch-1.0,呵呵。
b) 打开搜索器目录(我们称为web nutch),配置WEB-INF/classes/nutch-site.xml,
<property>
<name>searcher.dir</name>
<value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled& ...
- 2009-07-06 00:18
- 浏览 1325
- 评论(0)
工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说,其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤,日后需要时候也可以翻翻。
nutch分为爬虫和搜索器 ...
- 2009-07-05 23:59
- 浏览 1564
- 评论(0)
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。
一、总体介绍:
1、先注入种子urls到crawldb
2、循环 ...
- 2009-06-30 17:59
- 浏览 1486
- 评论(1)
下面分析一下Nutch搜索引擎系统的特点。
一、系统架构
总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓
取程序和 ...
- 2009-06-30 16:45
- 浏览 2485
- 评论(0)
抓取目录分析
一共生成5个文件夹,分别是:
l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.
l linkdb目录存放URL的互联关系,是下载完成后分析得到的.
l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下:
Ø content:每个下载页面的内容。
Ø crawl_fetch:每 ...
- 2009-06-29 23:07
- 浏览 1169
- 评论(0)
最近做了一个JS项目,以前看过的东西基本上没记住,网上找了些正则方面资料,记录一下。
一 javascript正则表达式的基本知识
1 javascript 正则对象创建 和用法
声明javascript 正则表达式
var reCat = new RegExp("cat");
你也可以
var reCat = /cat/; //Perl 风格 (推荐)
2 学习最常用的 test exec match search replace split 6个方法
1) test 检查指定的字 ...
- 2009-05-17 13:07
- 浏览 1387
- 评论(0)
ADODB.RecordSet常用方法查询
- 博客分类:
- 遗弃箱子
rs = Server.CreateObject("ADODB.RecordSet")
rs.Open(sqlStr,conn,1,A)
注:A=1表示读取数据;A=3表示新增、修改或删除数据。
在RecordSet组件中,常用的属性和方法有:
rs.Fields.Count:RecordSet对象字段数。
rs(i).Name:第i个字段的名称,i为0至rs.Fields.Count-1
rs(i):第i个字段的数据,i为0至rs.Fields.Count-1
rs("字段名"):指定字段的数据。
rs.R ...
- 2009-05-16 12:40
- 浏览 9012
- 评论(0)
document 文挡对象 - JavaScript脚本语言描述
---------------------------------------------------------------------
注:页面上元素name属性和JavaScript引用的名称必须一致包括大小写
否则会提示你一个错误信息 "引用的元素为空或者不是对象"
---------------------------------------------------------------------
对象属性
document.title //设置文档标题等价 ...
- 2009-05-13 09:56
- 浏览 1851
- 评论(0)
<HTML>
<HEAD>
<title>还不太完善的完善自动完成JS,哈</title>
<style>
#divf {
margin:10px;
font-size:0.8em;
text-align:center;
}
#divc {
border:1px solid #333333;
font-family:verdana;
line-height:100%;
font-size:9pt;
float:none;
}
/*firefox得设置一下CSS位置**/
#div ...
- 2009-05-13 08:46
- 浏览 1258
- 评论(0)
1. 软件版本阶段说明
* Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。
* Beta版: 该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要经过多次测试来进一步消除,此版本主要的修改对像是软件的UI。
* RC版: 该版本已经相当成熟了,基本上不存在导致错误的BUG,与即将发行的正式版相差无几。
* Release版: 该版本意味“最终版本”,在前面版本的一系列测试版之后,终归会有一个正式版本,是最终交付用户使用的一个版本。该版本有时也称为标准版。一般情况下 ...
- 2009-04-09 21:03
- 浏览 974
- 评论(0)