最新文章列表

nutch 安装部署 以nutch2.3.1 为例

[/size][size=medium]最近在研究nutch 在Ubuntu系统上安装部署nutch,nutch安装步骤如下: 1、先 安装ANT (ant下载安装包就不写了 百度一大把) //解压 ant sudo tar -zxvf   /usr/test/soft/apache-ant-1.9.7-bin.tar.gz -C /usr //移动ant (这里只是把安装的文件放到一目录下,方便管 ...
tt9576 评论(0) 有2386人浏览 2016-07-18 14:53

Nutch2源码研究之InjectorJob

Nutch任务通常从InjectorJob开始,它的作用是从种子文件中取出所有种子存入库中,供之后的任务使用。 InjectorJob类中最重要是UrlMapper,这个类实际处理类 public static class UrlMapper extends Mapper<LongWritable, Text, String, WebPage> { pri ...
h140465 评论(0) 有1300人浏览 2015-09-13 22:07

Nutch爬取效率非常重要的一点

关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。 http://my.oschina.net/junfrank/blog/290404 除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下: 一、修改Generator. ...
羊羊羊 评论(0) 有1352人浏览 2015-06-09 14:22

Nutch爬去中文网站乱码

    今天使用Nutch1.7抓取中文网站的时候,发现抓取后的数据是乱码,网上找了很多资料都没有解决。于是查看源代码发现,Nutch解析文件使用的是HtmlParser类,此类中有获取网页编码的代码:   // NUTCH-1006 Meta equiv with single quotes not accepted private static Pattern metaPatter ...
h140465 评论(0) 有936人浏览 2015-06-03 23:05

SOLR4.2+NUTCH1.6

1、SOLR4.2集成NUTCH1.6 wget  http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar  -xzvf  solr-4.2.0.tgz  cd  solr-4.2.0/example  复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...
yangshangchuan 评论(0) 有3529人浏览 2015-04-08 06:21

给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件​   1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)   2、下载并解压Java中文分词组件word-1.0-bin.zip   3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前 ...
yangshangchuan 评论(0) 有4011人浏览 2015-04-07 21:12

Plugins: directory not found: plugins java.lang.RuntimeException: Error in confi

Plugins: directory not found: plugins java.lang.RuntimeException: Error in configuring object 在nutch-site.xml中添加: <property> <name>plugin.folders</name> <value>apache-n ...
qq346359669 评论(0) 有664人浏览 2015-01-08 17:47

修改conf中的文件没有效果

如果修改了conf中的文件而没有效果的话试着重新ant编译一下。比如在本地执行可以爬取而在hadoop上不能爬取,可能是hadoop上不能识别新修改的配置文件而把url都filter掉了。用ant命令重新编译一次就好了
qq346359669 评论(0) 有630人浏览 2015-01-07 10:55

二次开发nutch的恩恩怨怨

    今天下午,总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在,一年半接近两年的时间了。从开始的一无所知、凑合着用到后来 ...
lies_joker 评论(0) 有2519人浏览 2014-09-29 18:05

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。   搜索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索 ...
yangshangchuan 评论(1) 有397834人浏览 2014-08-14 00:38

nutch杂记

1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。 相关代码位于(nutch版本1.5.1,其他版本未测试): org.apache.nutch.fetcher.Fetcher的run方法. 找到以下几行代码并 ...
hae 评论(0) 有961人浏览 2014-07-30 22:21

nutch 集成 hbase

nutch安装 安装软件准备 安装环境:centos 6.5 nutch:v2.2.1 hbase:v0.94.18 本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料; 安装步骤: 安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量 写道 [hadoop@master nutch]$ vim / ...
duguyiren3476 评论(1) 有6296人浏览 2014-06-27 11:23

Nutch抓取源码分析之Crawl类

1、初始化一个Configuration实例设置抓取工作配置; 2、设置一些默认抓取工作参数,比如进程数threads、抓取深度depth、抓取网页数量topN; 3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index),用来存放原生网页,以及网页解析出的文本内容及其其它相关数据; 4、在抓取工作及其索引过程中,这通过初始化一 ...
wbj0110 评论(0) 有1037人浏览 2014-06-04 13:32

Nutch Crawler抓取数据并存储到MySQL

Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完成了指定网站数据的抓取。 首先,需要准备好Nutch。目 ...
wbj0110 评论(0) 有1098人浏览 2014-05-28 13:09

Nutch 实战

基本信息 Nutch是一个开放源代码(open-source)的Java搜索引擎包,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。   回页首 Nutch的总体结构 Nut
wbj0110 评论(0) 有1250人浏览 2014-05-25 09:01

Nutch入门白话版

不得不说,Nutch的入门官方文档写的真不清晰明了。害的我按照官方文档折腾半天。   Nutch现在已经到了2.2.2版本,而且版本1.x已经更新到了1.8,这里以1.7为例,1.8中的部分命令行工具的API有变,入门时不是很容易。   #安转运行Nutch#  
king_sky_wjb 评论(0) 有788人浏览 2014-05-23 10:01

N​u​t​c​h​入​门​教​程

Nutch入门学习  
wbj0110 评论(0) 有1950人浏览 2014-05-23 09:25

Nutch1.8插件编译步骤

Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。 1,下载nutch编码,进行编译。 2,进入到nutch的根目录的src/plugin/下,新建一个index-self的文件夹,这个文件夹名字,可以随便 ...
qindongliang1922 评论(0) 有1374人浏览 2014-05-21 19:15

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics