网络爬虫热门博客列表 - ITeye博客频道 - 第3页

博客专栏推荐

本月博客排行

第1名
wy_19921005
第2名
mft8899
第3名
java-007
Anmin

年度博客排行

jsoup 网络爬虫基础文档

jsoup 简介：http://871421448.iteye.com/blog/1545996 jsoup API 文档：http://jsoup.org/apidocs/ jsoup Jar包下载：http://jsoup.org/download 示例1:http://blog.csdn.net/withiter/article/details/15339579 示例2:http:// ...

jsoup 爬虫网络爬虫

高军威评论(0) 有1118人浏览 2014-11-17 09:29

学习Java网络爬虫

今天学习了一下Java的网络爬虫技术，发现网络爬虫技术首先分为以下几个步骤: 1、打开网页链接 2、把网页代码用一个BufferedReader存放以下是我做的一个代码实例: 在学习网络爬虫的过程中首先要导入两个包:htmllexer.jar,htmlparser.jar public static void main(String[] args) { try { ...

网络爬虫

xiaoan2345 评论(0) 有1799人浏览 2014-10-20 21:03

Webmagic 一个网络爬虫工具包

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。作者曾经进行过一年的垂直爬虫的开发，webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。 web爬虫是一种技术，webmagic致力于将这种技术的实现成本降低，但是出于对资源提供者的尊重，w ...

Webmagic 网络爬虫工具包

aoyouzi 评论(0) 有5270人浏览 2014-09-05 12:30

网络爬虫策略介绍

网络爬虫策略介绍　　Web爬虫(Crawler,Robot,Bot,Spider)与爬取(Crawling)，被认为所谓的SEO学习的第一步。由于现在各大搜索引擎提倡通过sitemap主动提交内容� ...

网络爬虫策略介绍

aoyouzi 评论(0) 有1211人浏览 2014-07-22 10:22

网络爬虫(网络蜘蛛)之网页抓取

转载地址：http://www.cnblogs.com/chenying99/articles/3213533.html 现在有越来越多的人热衷于做网络爬虫（网络蜘蛛），也有越来越多的地方需要网络爬虫，比如搜索引擎、资讯采集、舆情监测等等，诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂，如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以 ...

网络爬虫

xiaodong* 评论(0) 有804人浏览 2014-07-18 11:02

模拟浏览器的神器 - HtmlUnit

随着Web的发展，RIA越来越多，JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战，解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。好在有一个Java开源项目HtmlUnit，它能模拟Firefox、IE、Chrome等浏览器，不但可以用来测试Web应用，还可以用来解析包含JS的页面以提取信息。下面看看H ...

HtmlUnit 模拟浏览器执行JS 信息采集网络爬虫

yangshangchuan 评论(3) 有26806人浏览 2014-03-26 10:55

运行nutch提示：0 records selected for fetching, exiting

运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出，怎么回事呢？原因多种多样，归根结底就是CrawlDB中的URL经过爬虫抓取调度器（默认是org.apache.nutch.crawl.DefaultFetchSchedule）判断，断定都不应该去抓，所以，Stop The World。 ...

nutch hadoop 网络爬虫大数据搜索引擎

yangshangchuan 评论(3) 有5208人浏览 2014-03-18 20:17

Apache Nutch v1.8发布，Java实现的网络爬虫

Apache Nutch v1.8已经发布了，建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本，Apache Tika也升级到了 ...

nutch hadoop solr 网络爬虫搜索引擎

yangshangchuan 评论(1) 有4729人浏览 2014-03-18 10:14

Gora – 大数据持久化

gora-demo托管于github wget http://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -Dg ...

Gora HBase hadoop 网络爬虫

wbj0110 评论(0) 有1058人浏览 2014-03-17 17:27

Nutch抓取需要登录的网站

Tomcat自身带的后台管理程序是需要用户登录的，这样的网站如何用Nutch来爬呢？Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证，对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况，Nutch就无能为力了，就更不用说复杂验证码的认证方式了。下面用一个简单的例子说明如何配置Nutch，使其能爬需要Htt ...

nutch solr lucene hadoop 爬虫网络爬虫搜索引擎登陆抓取

yangshangchuan 评论(2) 有6564人浏览 2014-03-16 20:01

网络爬虫面临的挑战之链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样，相互矛盾，相互克制，同时也相互促进。网站的构建技术从简单的静态网站发展到动态网站，信息的传递从用户单向接收发展到双向交互，内容的产生从站长集中生成发展到全民参与生成。 Web技术的发展对网络爬虫构成了极大的挑战，我们以Nutch为例来说明难在哪里： 1、静态网站（简单） 2、动态网站（无陷阱）（难） 3、动态网站（有陷 ...

nutch solr lucene hadoop 爬虫网络爬虫内容去重链接陷阱链接农场

yangshangchuan 评论(0) 有5409人浏览 2014-03-16 01:39

配置Nutch模拟浏览器以绕过反爬虫限制

当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候，抓取的所有页面内容均为：您的访问请求被拒绝 ...... 这是最简单的反爬虫策略（该策略简单地读取HTTP请求头User-Agent的值来判断是人（浏览器）还是机器爬虫），我们只需要简单地配置Nutch来模拟浏览器（simulate web browser）就可以绕过这种限制。在nutch ...

nutch 爬虫网络爬虫 hadoop solr

yangshangchuan 评论(1) 有7460人浏览 2014-03-14 02:48

运行nutch报错：unzipBestEffort returned null

报错信息：fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null 完整的报错信息为： 2014-03-12 16:48:38,031 ER ...

nutch 网络爬虫爬虫 lucene solr

yangshangchuan 评论(0) 有3893人浏览 2014-03-12 18:41

网络爬虫读取js生成的页面

还有js逻辑的页面，对网络爬虫的信息抓取工作造成了很大障碍。DOM树，只有执行了js的逻辑才可以完整的呈现。而有的时候，有要对js修改后的 dom树进行解析。在搜寻了大量资料后，发现了一个开源的项目cobra。cobra支持JavaScript引擎，其内置的JavaScript引擎是 mozilla下的 rhino,利用rhino的API，实现了对嵌入在html的JavaScript的解释执行。测 ...

网络爬虫 js

wbj0110 评论(0) 有1699人浏览 2014-01-15 10:41

大数据系列12：Hadoop2 – 全新的Hadoop

wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gz tar -xzvf hadoop-2.2.0.tar.gz cd hadoop-2.2.0 vi etc/hadoop/hadoop-env.sh 修改： export JAVA_HOME=/home/ysc/jdk1.7. ...

hadoop2 hadoopV2 大数据搜索引擎网络爬虫

yangshangchuan 评论(6) 有9297人浏览 2013-11-01 00:02

大数据系列6：HBase – 基于Hadoop的分布式数据库

wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg 修改：da ...

HBase Gora 大数据搜索引擎网络爬虫

yangshangchuan 评论(3) 有7925人浏览 2013-10-10 00:07

大数据系列1：在win7上安装配置Hadoop伪分布式集群

1、安装虚拟机和操作系统 VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2、设置root用户密码 sudo passwd root 3、上传文件利用

hadoop HBase 大数据搜索引擎网络爬虫

yangshangchuan 评论(2) 有12710人浏览 2013-10-09 18:39

大数据系列11：Gora – 大数据持久化

borm – 大数据的对象持久化 wget http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -DgroupI ...

Gora HBase 大数据搜索引擎网络爬虫

yangshangchuan 评论(0) 有7835人浏览 2013-10-09 14:20

大数据系列5：Pig – 大数据分析平台

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加： export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin so ...

pig pig latin 大数据搜索引擎网络爬虫

yangshangchuan 评论(0) 有6515人浏览 2013-10-04 02:06

« 上一页 1 2 3 4 5 下一页 »

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

jsoup 网络爬虫基础文档

学习Java网络爬虫

Webmagic 一个网络爬虫工具包

网络爬虫策略介绍

网络爬虫(网络蜘蛛)之网页抓取

模拟浏览器的神器 - HtmlUnit

运行nutch提示：0 records selected for fetching, exiting

Apache Nutch v1.8发布，Java实现的网络爬虫

Gora – 大数据持久化

Nutch抓取需要登录的网站

网络爬虫面临的挑战之链接构造

配置Nutch模拟浏览器以绕过反爬虫限制

运行nutch报错：unzipBestEffort returned null

网络爬虫读取js生成的页面

大数据系列12：Hadoop2 – 全新的Hadoop

大数据系列6：HBase – 基于Hadoop的分布式数据库

大数据系列1：在win7上安装配置Hadoop伪分布式集群

大数据系列11：Gora – 大数据持久化

大数据系列5：Pig – 大数据分析平台

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论