heritrix 爬网页存不下来

0 0

heritrix 爬网页存不下来5

我爬的是这个页面
http://travel.sina.com.cn/scene/budlg.html

设置的时候是用的mirror方式的，然后一下job就完成了，但是在jobs下面的文件里，index.html里说的是页面没有找到，图片什么的都没有~

是怎么回事啊？

刚开始玩这个，实在是不明白。。请教各位大牛，帮忙帮忙~小女子不胜感激~跪谢了~

Java综合

2009年12月29日 09:42

zhizi120
25
0 0 0

1个答案按时间排序按投票排序

0 0

也许是sina的防爬虫做得好呢，哈

2010年1月12日 10:11

lovewhzlq
13934
0 0 0

添加评论

相关推荐

heritrix爬虫安装部署: Heritrix的设计初衷是为了满足大规模网页归档的需求，但因其灵活的架构和丰富的API，也被广泛应用于数据挖掘、搜索引擎优化等领域。 #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从...

网络爬虫Heritrix1.14.4可直接用: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本，但依然具有广泛的适用性，尤其对于学习和研究网络爬虫技术...

heritrix爬虫工具的使用: Heritrix是一款开源的网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略，以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

Heritrix爬虫处理方案V1.0: 安装部署好的Heritrix爬虫总共有28个jar包（不包括系统jar包）。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后，运行Heritrix.java启动爬虫，在浏览器地址栏中输入：...

heritrix爬虫,安装tomcat: Heritrix是一个基于Java的爬虫框架，支持深度爬取、断点续爬、URL过滤和内容处理等功能。它的灵活性和扩展性使得开发者可以根据需求定制各种爬取策略。 1. **下载与安装Heritrix** - 访问Heritrix的官方网站或...

Heritrix 网络爬虫: Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

heritrix网络爬虫: Heritrix是一个开源，可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

Heritrix爬虫源码: Heritrix是一款开源的、可定制的网络爬虫软件，由Internet Archive开发并维护，用于大规模地抓取互联网上的网页信息。它具有高度模块化和灵活性的特点，允许开发者根据需要调整和扩展其功能，以便适应各种不同的爬取...

Heritrix安装详细过程: 相较于其他爬虫工具，Heritrix提供了更为精细的控制机制，能够帮助用户更高效地抓取所需的网页数据。 #### 二、Heritrix安装详细步骤本节将详细介绍如何在Eclipse环境中搭建Heritrix，并进行必要的配置，以便能够...

网络爬虫（heritrix）代码: 在本主题中，我们重点关注Heritrix，一个开源、可配置且强大的网络爬虫工具，广泛用于构建搜索引擎和其他需要大量网页数据的应用。标题中的"网络爬虫（heritrix）代码"意味着我们将探讨Heritrix的安装、配置和编程...

Heritrix网络爬虫开发包: Heritrix是一款强大的开源网络爬虫工具，专为大规模网页抓取而设计。它由互联网档案馆（Internet Archive）开发，旨在系统性地、可扩展地抓取互联网上的信息资源，为研究人员、数据分析师和图书馆员等用户提供丰富的...

heritrix1.14.0jar包: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页数据。在IT行业中，爬虫是获取大量网络数据的重要手段，Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

heritrix 的详细配置与使用资料: Heritrix 是一个开源的网络爬虫工具，用于抓取网页并进行深度索引或分析。在配置和使用 Heritrix 时，有几个关键步骤和注意事项需要了解。首先，要开始配置 Heritrix，你需要从官方网站下载源码包（如 heritrix ...

Heritrix网络爬虫: Heritrix是一款强大的开源网络爬虫工具，由Internet Archive开发并维护，被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称，允许用户根据需求定制爬取策略。 Heritrix的...

开源的爬虫软件Heritrix3.1.0: Heritrix是一款强大的开源网络爬虫软件，专为大规模网页抓取而设计。这款软件以其灵活性、可扩展性和模块化架构而闻名，被广泛应用于学术研究、数据分析、搜索引擎索引构建等多个领域。Heritrix 3.1.0是其最新的稳定...

扩展Heritrix3指定内容提取.pdf: 文档提到Heritrix3本身并不提供网页信息提取模块，但是由于其高可扩展性，用户可以添加自定义的提取模块。接下来，文档深入分析了扩展接口，提供了关于如何在Heritrix的配置文件中插入新的内容提取器的详细说明。...

我的问答 FAQ | 勋章

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics

heritrix 爬网页存不下来5

1个答案 按时间排序 按投票排序

相关推荐

相关推荐

已解决问题

未解决问题

排行榜

1个答案按时间排序按投票排序