Nutch index源代码解析二) -

cz05141331

浏览: 4532 次
性别:
来自: 南京

最近访客更多访客>>

JiaQ

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Nutch index源代码解析二)

博客分类：

大数据处理研究

Ntuch solr hadoop 爬虫

接着上篇文档~~~~~

上篇文章写到，Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。

接下来介绍怎么爬取下来的数据如何推送给solr。

----------------------------------------------------华丽的分割线---------------------------------------------

Ntuch自定义了一个 IndexerOutputFormat，这个类继承于FileOutputFormat Override getRecordWriter方法

代码如下：

public class IndexerOutputFormat extends FileOutputFormat<Text, NutchIndexAction> {

@Override

public RecordWriter<Text, NutchIndexAction> getRecordWriter(FileSystem ignored,

JobConf job, String name, Progressable progress) throws IOException {

...

}

方法里面调用Nutch自定义的一个接口NutchIndexWriter，我们看下他的一个实现类SolrWriter，我们主要看下他的close方法，代码如下：

public void close() throws IOException {

try {

if (!inputDocs.isEmpty()) {

LOG.info("Indexing " + Integer.toString(inputDocs.size()) + " documents");

if (numDeletes > 0) {

LOG.info("Deleting " + Integer.toString(numDeletes) + " documents");

}

UpdateRequest req = new UpdateRequest();

req.add(inputDocs);

req.setParams(params);

req.process(solr);

inputDocs.clear();

}

// solr.commit();

} catch (final SolrServerException e) {

throw makeIOException(e);

}

在关闭的时候，Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器，solr.commit();这个方法在前面一篇文章中解释有些偏差，solr的整个事务都是在solr服务器端的，这跟以前的的事务有所区别，而这个方法就是再发送一个请求，要求提交当前的事务。

至于之前索引的增删查改也在这个类中实现，如想知道详情，可查看这个类实现。

至此，Nutch的整个index流程基本完成了。

由于时间仓促只是介绍了大概流程，如想了解其中一些细节问题，如有兴趣可以留言。或者发站内信给我。

第一次写，欢迎留言批评~~~~

1
顶

0
踩

分享到：

Nutch index源代码解析(一)

2013-03-15 10:56
浏览 1699
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nutch index源代码解析二)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nutch index源代码解析二)

评论

发表评论

相关推荐

Nutch index源代码解析(一)

最近访客更多访客>>