最新文章列表

How to make nutch run in eclipse ?

Nutch是一个优秀的开源的数据爬取框架,我们只需要简单的配置,就可以完成数据爬取,当然,Nutch里面也提供了很灵活的的插件机制,我们随时都可以对它进行二次开发,以满足我们的需求,本篇散仙,先来介绍下,如何在eclipse里面以local模式调试nutch,只有在eclipse里面把它弄清楚了,那么,我们学习起来,才会更加容易,因为,目前大多数人,使用nutch,都是基于命令行的操作,虽然很简单方 ...
qindongliang1922 评论(2) 有2432人浏览 2014-05-20 16:46

Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全文索引 ...
qindongliang1922 评论(0) 有3099人浏览 2014-05-14 18:08

Nutch1.6解析网页乱码解决方案

Nutch1.6在使用默认网页解析插件解析网页文本时,有些网页会出现在乱码问题。出现乱码的原因分析:parse-html插件在解析网页文本时,会先使用正则表达匹配出网页的编码。源码如下: private static Pattern metaPattern =     Pattern.compile("<meta\\s+([^>]*http-equiv=(\"|' ...
dujian.gu 评论(0) 有1259人浏览 2014-05-09 17:15

行业垂直搜索引擎网页抓取项目

公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢! 这是详细需求: (1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。 (2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。 (3) 系 ...
carlwu 评论(0) 有858人浏览 2014-05-06 09:48

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

由于项目需要把nutch运行在hadoop2.2.0上,但是官方网站上给出的版本为hadoop1.2.0,于是需要做版本兼容,我们选取的nutch版本为2.2.1,以为最大的版本是最新的,后来发现无知了,这也是后来痛苦经历的根源。 先说结论,nutch1.8直接可以运行在hadoop2.2.0上,不用为版本兼容做任何修改。 但是不知道这一结论之前我为了兼容nutch 2.2.1和hadoop2. ...
羊羊羊 评论(4) 有2293人浏览 2014-04-16 18:06

SOLR4.2+NUTCH1.6

1、SOLR4.2集成NUTCH1.6 wget http://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz  tar  -xzvf  solr-4.2.0.tgz  cd  solr-4.2.0/example  复制nutch的conf目录中的schema-solr4.xml文件到solr/collection ...
wbj0110 评论(0) 有593人浏览 2014-03-24 09:47

运行nutch提示:0 records selected for fetching, exiting

运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出,怎么回事呢?   原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是org.apache.nutch.crawl.DefaultFetchSchedule)判断,断定都不应该去抓,所以,Stop The World。 ...
yangshangchuan 评论(3) 有5186人浏览 2014-03-18 20:17

Apache Nutch v1.8发布,Java实现的网络爬虫

Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了 ...
yangshangchuan 评论(1) 有4707人浏览 2014-03-18 10:14

Nutch抓取需要登录的网站

Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。   下面用一个简单的例子说明如何配置Nutch,使其能爬需要Htt ...
yangshangchuan 评论(2) 有6547人浏览 2014-03-16 20:01

网络爬虫面临的挑战 之 链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样,相互矛盾,相互克制,同时也相互促进。   网站的构建技术从简单的静态网站发展到动态网站,信息的传递从用户单向接收发展到双向交互,内容的产生从站长集中生成发展到全民参与生成。   Web技术的发展对网络爬虫构成了极大的挑战,我们以Nutch为例来说明难在哪里:   1、静态网站(简单) 2、动态网站(无陷阱)(难) 3、动态网站(有陷 ...
yangshangchuan 评论(0) 有5381人浏览 2014-03-16 01:39

配置Nutch模拟浏览器以绕过反爬虫限制

当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制。   在nutch ...
yangshangchuan 评论(1) 有7413人浏览 2014-03-14 02:48

运行nutch报错:unzipBestEffort returned null

报错信息:fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null   完整的报错信息为:   2014-03-12 16:48:38,031 ER ...
yangshangchuan 评论(0) 有3861人浏览 2014-03-12 18:41

nutch入门之本地安装运行

最近hadoop着实很火,平时玩hadoop没有数据也很头疼,还好有nutch这个开源框架,可以从网上爬取数据。本身nutch也依赖hadoop来抓取数据,正好一举两得, ...
hektor 评论(0) 有1229人浏览 2014-02-18 22:54

搜索引擎 Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的 ...
wbj0110 评论(0) 有1065人浏览 2013-12-31 14:52

S2JH: 新增定向网站数据crawl爬取解析服务组件模块

基于过滤链设计模式、Htmlunit扩展、异步多线程等特性的简化定向数据爬取解析组件,提供基于天猫商品的数据采集演示单元测试(s2jh\crawl-service\src\test\java\lab\s2jh\crawl\service\test\CrawlServiceTest.java)   说明:此套爬虫设计主要用于一些定向网站数据抓取解析,如电商商品、交友信息等,抓取和解析特定页面的属 ...
xautlx 评论(0) 有1249人浏览 2013-12-02 13:10

Nutch相关框架安装使用最佳指南(转)

Chinese installing and using instruction  -  The best guidance in installing and using  Nutch in China 国内首套免费的《Nutch相关框架视频教程》        土豆在线观看地址:http://www.tudou.com/home/item_u106249539s0p1.html 超清原版下载 ...
wbj0110 评论(0) 有1377人浏览 2013-12-02 09:34

nutch 03 nutch 的安装

1.操作系统是ubuntu .在终端用svn工具安装,如果没有svn工具,使用命令安装svn工具。 2.nutch 是使用svn进行源代码管理的,nutch svn 的地址是:http://svn.apache.org/repos/asf/nutch/tags/release-1.7/           release-1.xx  可能有所不同。使用它的源代码,而不是它发布的二进制版本,可以 ...
zhangzhanlei1988 评论(0) 有839人浏览 2013-10-28 08:17

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics