`
biaowen
  • 浏览: 74268 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
中文分词配置好后,需要对源代码进行一些修改,否则在爬虫和搜索时候不能正确分词。中文分词器回头一起补充上。我的nutch版本1.0。(修改打包,放到lib包中,记得将跟目录上的nutch.job删掉。) 爬虫 :org.apache.nutch.indexer.lucene.LuceneWriter 需要对write方法进行一些修改,以中文分词为主。nutch默认加载en分词器。 public void write(NutchDocument doc) throws IOException { final Document luceneDoc = createLuceneDoc ...
1,策略模式:      定义了算法族,将算法分门别类封装起来,让算法之间可以互相替换,此模式让算法的变化独立于使用算法的客户,算法之间可以动态进行相互替换,很适合于同策略多行为的项目。   2.1,观察者模式       定义对象之间的一对多关系,这样一来,当“一”对象状态改变时,“多”所有对象都会得到通知并且自动更新。
得多花些时间先把规则先看了,然后才能答题,如果不认真读,反复答个7、8遍都没搞定,想在javaeye玩,真门槛高还真不是吹的。 很早以前就想对自己感兴趣的帖子发问,呵呵,不过一直没去javaeye考试,就只能拖到现在才去考试,终于通过了,麻烦(牢骚)。。
报名参加了一个英语培训班,测试后从初级开始,也就所谓的0起点,学期是半年。给自己加油一下,希望通过这次学习提高自己,能看看英文文档,到E文网站去查查资料,加油。。
注意,tomcat和nutch路径需要修改成自己的 # nutch更目录 NUTCH_HOME=/cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0 # tomcat目录 CATALINA_HOME=/cygdrive/d/JavaTools/apache-tomcat-6.0.14   还有批量将crawled/替换为你的索引存储目录。 将该shell代码保存到你的爬虫nutch更目录下,可任意命名(如:runbot) 然后在cygwin里直接输入一下文件名就可以运行   #!/bin/sh # runbot scrip ...
2.    搜索器配置。     a)    将nutch-1.0.war部署到tomcat上,第一次部署tomcat会报错,没关系,因为还没进行配置,我们目的在于解压出nutch-1.0,呵呵。     b)    打开搜索器目录(我们称为web nutch),配置WEB-INF/classes/nutch-site.xml, <property> <name>searcher.dir</name> <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled& ...
工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说,其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤,日后需要时候也可以翻翻。 nutch分为爬虫和搜索器 ...
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍: 1、先注入种子urls到crawldb 2、循环 ...
下面分析一下Nutch搜索引擎系统的特点。 一、系统架构   总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓 取程序和 ...
抓取目录分析 一共生成5个文件夹,分别是: l         crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间. l         linkdb目录存放URL的互联关系,是下载完成后分析得到的. l         segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只抓取了一层页面就只生成了20090508173137目录.每个子目录里又有6个子文件夹如下: Ø         content:每个下载页面的内容。 Ø         crawl_fetch:每 ...
最近做了一个JS项目,以前看过的东西基本上没记住,网上找了些正则方面资料,记录一下。 一 javascript正则表达式的基本知识 1     javascript 正则对象创建 和用法     声明javascript 正则表达式          var reCat = new RegExp("cat");       你也可以      var reCat = /cat/;      //Perl 风格   (推荐) 2 学习最常用的 test exec match search  replace  split 6个方法    1) test  检查指定的字 ...
rs = Server.CreateObject("ADODB.RecordSet")   rs.Open(sqlStr,conn,1,A)   注:A=1表示读取数据;A=3表示新增、修改或删除数据。   在RecordSet组件中,常用的属性和方法有:   rs.Fields.Count:RecordSet对象字段数。   rs(i).Name:第i个字段的名称,i为0至rs.Fields.Count-1   rs(i):第i个字段的数据,i为0至rs.Fields.Count-1   rs("字段名"):指定字段的数据。   rs.R ...
document 文挡对象 - JavaScript脚本语言描述 --------------------------------------------------------------------- 注:页面上元素name属性和JavaScript引用的名称必须一致包括大小写      否则会提示你一个错误信息 "引用的元素为空或者不是对象" --------------------------------------------------------------------- 对象属性 document.title               //设置文档标题等价 ...
<HTML> <HEAD> <title>还不太完善的完善自动完成JS,哈</title> <style> #divf { margin:10px; font-size:0.8em; text-align:center; } #divc { border:1px solid #333333; font-family:verdana; line-height:100%; font-size:9pt; float:none; } /*firefox得设置一下CSS位置**/ #div ...
1. 软件版本阶段说明 * Alpha版: 此版本表示该软件在此阶段主要是以实现软件功能为主,通常只在软件开发者内部交流,一般而言,该版本软件的Bug较多,需要继续修改。 * Beta版: 该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要经过多次测试来进一步消除,此版本主要的修改对像是软件的UI。 * RC版: 该版本已经相当成熟了,基本上不存在导致错误的BUG,与即将发行的正式版相差无几。 * Release版: 该版本意味“最终版本”,在前面版本的一系列测试版之后,终归会有一个正式版本,是最终交付用户使用的一个版本。该版本有时也称为标准版。一般情况下 ...
Global site tag (gtag.js) - Google Analytics