0 0

heritrix 爬网页存不下来5

我爬的是这个页面
http://travel.sina.com.cn/scene/budlg.html

设置的时候是用的mirror方式的,然后一下job就完成了,但是在jobs下面的文件里,index.html里说的是页面没有找到,图片什么的都没有~



是怎么回事啊?

刚开始玩这个,实在是不明白。。请教各位大牛,帮忙帮忙~小女子不胜感激~跪谢了~
2009年12月29日 09:42

1个答案 按时间排序 按投票排序

0 0

也许是sina的防爬虫做得好呢,哈

2010年1月12日 10:11

相关推荐

    heritrix爬虫安装部署

    Heritrix的设计初衷是为了满足大规模网页归档的需求,但因其灵活的架构和丰富的API,也被广泛应用于数据挖掘、搜索引擎优化等领域。 #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix爬虫工具的使用

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略,以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...

    heritrix爬虫,安装tomcat

    Heritrix是一个基于Java的爬虫框架,支持深度爬取、断点续爬、URL过滤和内容处理等功能。它的灵活性和扩展性使得开发者可以根据需求定制各种爬取策略。 1. **下载与安装Heritrix** - 访问Heritrix的官方网站或...

    Heritrix 网络爬虫

    Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    Heritrix爬虫源码

    Heritrix是一款开源的、可定制的网络爬虫软件,由Internet Archive开发并维护,用于大规模地抓取互联网上的网页信息。它具有高度模块化和灵活性的特点,允许开发者根据需要调整和扩展其功能,以便适应各种不同的爬取...

    Heritrix安装详细过程

    相较于其他爬虫工具,Heritrix提供了更为精细的控制机制,能够帮助用户更高效地抓取所需的网页数据。 #### 二、Heritrix安装详细步骤 本节将详细介绍如何在Eclipse环境中搭建Heritrix,并进行必要的配置,以便能够...

    网络爬虫(heritrix)代码

    在本主题中,我们重点关注Heritrix,一个开源、可配置且强大的网络爬虫工具,广泛用于构建搜索引擎和其他需要大量网页数据的应用。 标题中的"网络爬虫(heritrix)代码"意味着我们将探讨Heritrix的安装、配置和编程...

    Heritrix网络爬虫开发包

    Heritrix是一款强大的开源网络爬虫工具,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发,旨在系统性地、可扩展地抓取互联网上的信息资源,为研究人员、数据分析师和图书馆员等用户提供丰富的...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix 的详细配置 与 使用资料

    Heritrix 是一个开源的网络爬虫工具,用于抓取网页并进行深度索引或分析。在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix ...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

    开源的爬虫软件Heritrix3.1.0

    Heritrix是一款强大的开源网络爬虫软件,专为大规模网页抓取而设计。这款软件以其灵活性、可扩展性和模块化架构而闻名,被广泛应用于学术研究、数据分析、搜索引擎索引构建等多个领域。Heritrix 3.1.0是其最新的稳定...

    扩展Heritrix3指定内容提取.pdf

    文档提到Heritrix3本身并不提供网页信息提取模块,但是由于其高可扩展性,用户可以添加自定义的提取模块。 接下来,文档深入分析了扩展接口,提供了关于如何在Heritrix的配置文件中插入新的内容提取器的详细说明。...

Global site tag (gtag.js) - Google Analytics