nutch研究记录4（中文分词）

博客分类：

搜索引擎

中文分词配置好后，需要对源代码进行一些修改，否则在爬虫和搜索时候不能正确分词。中文分词器回头一起补充上。我的nutch版本1.0。（修改打包，放到lib包中，记得将跟目录上的nutch.job删掉。）爬虫：org.apache.nutch.indexer.lucene.LuceneWriter 需要对write方法进行一些修改，以中文分词为主。nutch默认加载en分词器。 public void write(NutchDocument doc) throws IOException { final Document luceneDoc = createLuceneDoc ...

2009-10-29 20:45
浏览 1677
评论(1)

设计模式学习笔记

博客分类：

初步涉及

设计模式算法

1，策略模式：定义了算法族，将算法分门别类封装起来，让算法之间可以互相替换，此模式让算法的变化独立于使用算法的客户，算法之间可以动态进行相互替换，很适合于同策略多行为的项目。 2.1，观察者模式定义对象之间的一对多关系，这样一来，当“一”对象状态改变时，“多”所有对象都会得到通知并且自动更新。

2009-10-28 21:20
浏览 790
评论(0)

javaeye回复需先进行规则大考试，实在是有点傲气！

得多花些时间先把规则先看了，然后才能答题，如果不认真读，反复答个7、8遍都没搞定，想在javaeye玩，真门槛高还真不是吹的。很早以前就想对自己感兴趣的帖子发问，呵呵，不过一直没去javaeye考试，就只能拖到现在才去考试，终于通过了，麻烦（牢骚）。。

2009-09-14 10:21
浏览 722
评论(0)

这几天，新的旅程开始

博客分类：

初步涉及

报名参加了一个英语培训班，测试后从初级开始，也就所谓的0起点，学期是半年。给自己加油一下，希望通过这次学习提高自己，能看看英文文档，到E文网站去查查资料，加油。。

2009-09-01 09:42
浏览 850
评论(0)

nutch研究记录3（增量爬行）

博客分类：

搜索引擎

Tomcat Apache 脚本

注意，tomcat和nutch路径需要修改成自己的 # nutch更目录 NUTCH_HOME=/cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0 # tomcat目录 CATALINA_HOME=/cygdrive/d/JavaTools/apache-tomcat-6.0.14 还有批量将crawled/替换为你的索引存储目录。将该shell代码保存到你的爬虫nutch更目录下，可任意命名（如：runbot）然后在cygwin里直接输入一下文件名就可以运行 #!/bin/sh # runbot scrip ...

2009-07-06 00:22
浏览 5908
评论(6)

nutch研究记录2（搜索器配置）

博客分类：

搜索引擎

Tomcat Web XML C C++

2. 搜索器配置。 a) 将nutch-1.0.war部署到tomcat上，第一次部署tomcat会报错，没关系，因为还没进行配置，我们目的在于解压出nutch-1.0，呵呵。 b) 打开搜索器目录(我们称为web nutch)，配置WEB-INF/classes/nutch-site.xml， <property> <name>searcher.dir</name> <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled& ...

2009-07-06 00:18
浏览 1325
评论(0)

nutch研究记录1（爬虫配置）

博客分类：

搜索引擎

Java Eclipse Tomcat Google Windows

工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说，其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤，日后需要时候也可以翻翻。 nutch分为爬虫和搜索器 ...

2009-07-05 23:59
浏览 1564
评论(0)

Nutch Crawler工作流程及文件格式详细分析

博客分类：

搜索引擎

工作 lucene Mapreduce 正则表达式多线程

Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。一、总体介绍： 1、先注入种子urls到crawldb 2、循环 ...

2009-06-30 17:59
浏览 1486
评论(1)

Nutch搜索引擎系统架构

博客分类：

搜索引擎

搜索引擎 lucene 数据结构 Web

下面分析一下Nutch搜索引擎系统的特点。一、系统架构总体上Nutch可以分为2个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和 ...

2009-06-30 16:45
浏览 2485
评论(0)

natch常用的几个类

博客分类：

搜索引擎

lucene

抓取目录分析一共生成5个文件夹,分别是: l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间. l linkdb目录存放URL的互联关系,是下载完成后分析得到的. l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下: Ø content：每个下载页面的内容。 Ø crawl_fetch：每 ...

2009-06-29 23:07
浏览 1169
评论(0)

javascript正则表达式复习

博客分类：

遗弃箱子

正则表达式 JavaScript Perl

最近做了一个JS项目，以前看过的东西基本上没记住，网上找了些正则方面资料，记录一下。一 javascript正则表达式的基本知识 1 javascript 正则对象创建和用法声明javascript 正则表达式 var reCat = new RegExp("cat"); 你也可以 var reCat = /cat/; //Perl 风格（推荐） 2 学习最常用的 test exec match search replace split 6个方法 1） test 检查指定的字 ...

2009-05-17 13:07
浏览 1387
评论(0)

ADODB.RecordSet常用方法查询

博客分类：

遗弃箱子

rs = Server.CreateObject("ADODB.RecordSet") 　　rs.Open(sqlStr,conn,1,A) 　　注：A=1表示读取数据；A=3表示新增、修改或删除数据。　　在RecordSet组件中，常用的属性和方法有：　　rs.Fields.Count：RecordSet对象字段数。　　rs(i).Name：第i个字段的名称，i为0至rs.Fields.Count-1 　　rs(i)：第i个字段的数据，i为0至rs.Fields.Count-1 　　rs("字段名")：指定字段的数据。　　rs.R ...

2009-05-16 12:40
浏览 9012
评论(0)

js document查询

博客分类：

遗弃箱子

JavaScript IE 网络协议 HTML 脚本

document 文挡对象 - JavaScript脚本语言描述 --------------------------------------------------------------------- 注:页面上元素name属性和JavaScript引用的名称必须一致包括大小写否则会提示你一个错误信息 "引用的元素为空或者不是对象" --------------------------------------------------------------------- 对象属性 document.title //设置文档标题等价 ...

2009-05-13 09:56
浏览 1851
评论(0)

自动完成js

博客分类：

初步涉及

prototype C++C C#Firefox

<HTML> <HEAD> <title>还不太完善的完善自动完成JS，哈</title> <style> #divf { margin:10px; font-size:0.8em; text-align:center; } #divc { border:1px solid #333333; font-family:verdana; line-height:100%; font-size:9pt; float:none; } /*firefox得设置一下CSS位置**/ #div ...

2009-05-13 08:46
浏览 1258
评论(0)

版本命名规则

博客分类：

初步涉及

软件测试单元测试 UI F#J#

1. 软件版本阶段说明 * Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主，通常只在软件开发者内部交流，一般而言，该版本软件的Bug较多，需要继续修改。 * Beta版: 该版本相对于α版已有了很大的改进，消除了严重的错误，但还是存在着一些缺陷，需要经过多次测试来进一步消除，此版本主要的修改对像是软件的UI。 * RC版: 该版本已经相当成熟了，基本上不存在导致错误的BUG，与即将发行的正式版相差无几。 * Release版: 该版本意味“最终版本”，在前面版本的一系列测试版之后，终归会有一个正式版本，是最终交付用户使用的一个版本。该版本有时也称为标准版。一般情况下 ...

2009-04-09 21:03
浏览 974
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch研究记录4（中文分词）

设计模式学习笔记

javaeye回复需先进行规则大考试，实在是有点傲气！

这几天，新的旅程开始

nutch研究记录3（增量爬行）

nutch研究记录2（搜索器配置）

nutch研究记录1（爬虫配置）

Nutch Crawler工作流程及文件格式详细分析

Nutch搜索引擎系统架构

natch常用的几个类

javascript正则表达式复习

ADODB.RecordSet常用方法查询

js document查询

自动完成js

版本命名规则

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>