本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- kaizi1992
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- 龙儿筝
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- siemens800
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
最新文章列表
Nutch爬去中文网站乱码
今天使用Nutch1.7抓取中文网站的时候,发现抓取后的数据是乱码,网上找了很多资料都没有解决。于是查看源代码发现,Nutch解析文件使用的是HtmlParser类,此类中有获取网页编码的代码:
// NUTCH-1006 Meta equiv with single quotes not accepted
private static Pattern metaPatter ...
SOLR4.2+NUTCH1.6
1、SOLR4.2集成NUTCH1.6
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/co ...
给LUKE增加word分词器
word分词是一个Java实现的分布式中文分词组件
1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)
2、下载并解压Java中文分词组件word-1.0-bin.zip
3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前 ...
Plugins: directory not found: plugins java.lang.RuntimeException: Error in confi
Plugins: directory not found: plugins
java.lang.RuntimeException: Error in configuring object
在nutch-site.xml中添加:
<property>
<name>plugin.folders</name>
<value>apache-n ...
修改conf中的文件没有效果
如果修改了conf中的文件而没有效果的话试着重新ant编译一下。比如在本地执行可以爬取而在hadoop上不能爬取,可能是hadoop上不能识别新修改的配置文件而把url都filter掉了。用ant命令重新编译一次就好了
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。
搜索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索 ...
nutch 集成 hbase
nutch安装
安装软件准备
安装环境:centos 6.5
nutch:v2.2.1
hbase:v0.94.18
本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;
安装步骤:
安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量
写道
[hadoop@master nutch]$ vim / ...
Nutch抓取源码分析之Crawl类
1、初始化一个Configuration实例设置抓取工作配置;
2、设置一些默认抓取工作参数,比如进程数threads、抓取深度depth、抓取网页数量topN;
3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index),用来存放原生网页,以及网页解析出的文本内容及其其它相关数据;
4、在抓取工作及其索引过程中,这通过初始化一 ...
Nutch Crawler抓取数据并存储到MySQL
Apache Nutch是在Java平台上开发的开源网络爬虫工具。按照Nutch官方网站给出的向导,通过使用Nutch命令,可以比较容易地抓取指定种子网站的数据。不过,若是要通过它提供的Java API,以编程方式抓取数据,并存储到指定的数据存储,如MySQL,则有一些技巧或者说秘诀需要注意。经过这几天抽空进行的试验,并查询了相关资料,完成了指定网站数据的抓取。
首先,需要准备好Nutch。目 ...
Nutch入门白话版
不得不说,Nutch的入门官方文档写的真不清晰明了。害的我按照官方文档折腾半天。
Nutch现在已经到了2.2.2版本,而且版本1.x已经更新到了1.8,这里以1.7为例,1.8中的部分命令行工具的API有变,入门时不是很容易。
#安转运行Nutch#
Nutch1.8插件编译步骤
Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。
1,下载nutch编码,进行编译。
2,进入到nutch的根目录的src/plugin/下,新建一个index-self的文件夹,这个文件夹名字,可以随便 ...