- 浏览: 4504 次
- 性别:
- 来自: 南京
最新评论
文章列表
接着上篇文档~~~~~
上篇文章写到,Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。
接下来介绍怎么爬取下来的数据如何推送给solr。
----------------------------------------------------华丽的分割线---------------------------------------------
Ntuch自定义了一个 IndexerOutputFormat,这个类继承于FileOutputFormat Override getRecordWriter方法
代码如下:
public class Ind ...
Nutch集成slor的索引方法介绍
/**
* 建立索引
* @param solrUrl solr的web地址
* @param crawlDb 爬取DB的存放路径:\crawl\crawldb
* @param linkDb 爬取link的存放路径:\crawl\linkdb
* @param segments 元数据存放路径:\crawl\segments
* @param noCommit 是否提交slor服务器跟下slor索引
* @param deleteGone 是否删除过时的文档
* @param solr ...