nutch热门博客列表 - ITeye博客频道

博客专栏推荐

本月博客排行

第1名
wy_19921005
第2名
mft8899
第3名
java-007
benladeng5225
Anmin

年度博客排行

nutch 安装部署以nutch2.3.1 为例

[/size][size=medium]最近在研究nutch 在Ubuntu系统上安装部署nutch，nutch安装步骤如下： 1、先安装ANT (ant下载安装包就不写了百度一大把) //解压 ant sudo tar -zxvf /usr/test/soft/apache-ant-1.9.7-bin.tar.gz -C /usr //移动ant (这里只是把安装的文件放到一目录下，方便管 ...

ant mongodb java nutch ubuntu

tt9576 评论(0) 有2447人浏览 2016-07-18 14:53

Nutch2源码研究之InjectorJob

Nutch任务通常从InjectorJob开始，它的作用是从种子文件中取出所有种子存入库中，供之后的任务使用。 InjectorJob类中最重要是UrlMapper，这个类实际处理类 public static class UrlMapper extends Mapper<LongWritable, Text, String, WebPage> { pri ...

nutch inject 源码

h140465 评论(0) 有1319人浏览 2015-09-13 22:07

Nutch爬取效率非常重要的一点

关于nutch爬取的优化有同猿已经说的很清楚了，有兴趣的可以看看下面这个博客。 http://my.oschina.net/junfrank/blog/290404 除此之外我补充本猿在实践过程中遇见的重要的一点，Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现，不论怎么修改配置文件，在fetch阶段还是只启动了两个map，解决此问题结论如下：一、修改Generator. ...

nutch fetch 优化效率 hadoop

羊羊羊评论(0) 有1389人浏览 2015-06-09 14:22

Nutch爬去中文网站乱码

今天使用Nutch1.7抓取中文网站的时候，发现抓取后的数据是乱码，网上找了很多资料都没有解决。于是查看源代码发现，Nutch解析文件使用的是HtmlParser类，此类中有获取网页编码的代码： // NUTCH-1006 Meta equiv with single quotes not accepted private static Pattern metaPatter ...

nutch 乱码 HtmlParser

h140465 评论(0) 有972人浏览 2015-06-03 23:05

SOLR4.2+NUTCH1.6

1、SOLR4.2集成NUTCH1.6 wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz tar -xzvf solr-4.2.0.tgz cd solr-4.2.0/example 复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...

solr nutch word 搜索网络爬虫

yangshangchuan 评论(0) 有3556人浏览 2015-04-08 06:21

给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问） 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前 ...

luke nutch word分词搜索网络爬虫

yangshangchuan 评论(0) 有4038人浏览 2015-04-07 21:12

Plugins: directory not found: plugins java.lang.RuntimeException: Error in confi

Plugins: directory not found: plugins java.lang.RuntimeException: Error in configuring object 在nutch-site.xml中添加: <property> <name>plugin.folders</name> <value>apache-n ...

nutch

qq346359669 评论(0) 有698人浏览 2015-01-08 17:47

修改conf中的文件没有效果

如果修改了conf中的文件而没有效果的话试着重新ant编译一下。比如在本地执行可以爬取而在hadoop上不能爬取，可能是hadoop上不能识别新修改的配置文件而把url都filter掉了。用ant命令重新编译一次就好了

nutch

qq346359669 评论(0) 有665人浏览 2015-01-07 10:55

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来� ...

数据挖掘 mapreduce hadoop nutch

lies_joker 评论(0) 有2543人浏览 2014-09-29 18:05

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜索引擎架构在ElasticSearch之上，是一个典型的分布式在线实时交互查询架构，无单点故障，高伸缩、高可用。对大量信息的索引与搜索 ...

Nutch Hadoop Hbase ElasticSearch 搜索引擎

yangshangchuan 评论(1) 有397867人浏览 2014-08-14 00:38

nutch杂记

1. 如何绕过目标站点的robots.txt限制多数站点都是只允许百度、google等搜索引擎抓取的，所以会在robots.txt里限制其他爬虫。 nutch自然是会遵循robots协议的，但是我们可以通过修改nutch源码来绕过限制。相关代码位于（nutch版本1.5.1，其他版本未测试）： org.apache.nutch.fetcher.Fetcher的run方法. 找到以下几行代码并 ...

nutch

hae 评论(0) 有999人浏览 2014-07-30 22:21

nutch 集成 hbase

nutch安装安装软件准备安装环境：centos 6.5 nutch：v2.2.1 hbase:v0.94.18 本篇重点讲述nutch的安装和nutch与hbase的集成，hbase的安装请参考其他资料；安装步骤：安装ant：因编译nutch源码，需要ant工具，下载apache-ant 设置系统变量写道 [hadoop@master nutch]$ vim / ...

nutch hbase

duguyiren3476 评论(1) 有6315人浏览 2014-06-27 11:23

Nutch抓取源码分析之Crawl类

1、初始化一个Configuration实例设置抓取工作配置； 2、设置一些默认抓取工作参数，比如进程数threads、抓取深度depth、抓取网页数量topN； 3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index)，用来存放原生网页，以及网页解析出的文本内容及其其它相关数据； 4、在抓取工作及其索引过程中，这通过初始化一 ...

Nutch

wbj0110 评论(0) 有1065人浏览 2014-06-04 13:32

Nutch Crawler抓取数据并存储到MySQL

Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导，通过使用Nutch命令，可以比较容易地抓取指定种子网站的数据。不过，若是要通过它提供的Java API，以编程方式抓取数据，并存储到指定的数据存储，如MySQL，则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验，并查询了相关资料，完成了指定网站数据的抓取。首先，需要准备好Nutch。目 ...

Nutch

wbj0110 评论(0) 有1117人浏览 2014-05-28 13:09

Nutch 实战

基本信息 Nutch是一个开放源代码（open-source）的Java搜索引擎包，它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。除了基本的功能之外，Nutch也还有不少自己的特色，如Map-Reduce、Hadoop、Plugin等。回页首 Nutch的总体结构 Nut

Nutch

wbj0110 评论(0) 有1274人浏览 2014-05-25 09:01

Nutch入门白话版

不得不说，Nutch的入门官方文档写的真不清晰明了。害的我按照官方文档折腾半天。 Nutch现在已经到了2.2.2版本，而且版本1.x已经更新到了1.8，这里以1.7为例，1.8中的部分命令行工具的API有变，入门时不是很容易。 #安转运行Nutch#

nutch

king_sky_wjb 评论(0) 有808人浏览 2014-05-23 10:01

Nutch入门教程

Nutch入门学习

Nutch

wbj0110 评论(0) 有1970人浏览 2014-05-23 09:25

Nutch1.8插件编译步骤

Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制，可以参考下nutch的官方wiki，今天散仙，主要来介绍下，怎么在nutch里，添加我们自己的插件。 1，下载nutch编码，进行编译。 2，进入到nutch的根目录的src/plugin/下，新建一个index-self的文件夹，这个文件夹名字，可以随便 ...

nutch 插件编译

qindongliang1922 评论(0) 有1395人浏览 2014-05-21 19:15

« 上一页 1 2 3 4 5 下一页 »

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

nutch 安装部署以nutch2.3.1 为例

Nutch2源码研究之InjectorJob

Nutch爬取效率非常重要的一点

Nutch爬去中文网站乱码

SOLR4.2+NUTCH1.6

给LUKE增加word分词器

Plugins: directory not found: plugins java.lang.RuntimeException: Error in confi

修改conf中的文件没有效果

二次开发nutch的恩恩怨怨

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

nutch杂记

nutch 集成 hbase

Nutch抓取源码分析之Crawl类

Nutch Crawler抓取数据并存储到MySQL

Nutch 实战

Nutch入门白话版

Nutch入门教程

Nutch1.8插件编译步骤

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论