`
wangwei3
  • 浏览: 121022 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

继续抓取的一些问题及解决方案

阅读更多
采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI

第一个问题只要改一下order.xml
下面几个值这样设置

<string name="recover-path"></string> recover.gz的绝对路径


  <boolean name="checkpoint-copy-bdbje-logs">true</boolean>
    <boolean name="recover-retain-failures">false</boolean>
    <boolean name="recover-scope-includes">true</boolean>
    <boolean name="recover-scope-enqueues">true</boolean>

第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取

第三个问题没解决,
分享到:
评论
1 楼 zzzz3621 2011-12-17  
关于第二个问题,你这么写,就是把那个URL当成种子对吧?那么这个种子里解析出来的URL,到了BDBfrontier的话,不是会被过滤掉,因为原先那些解析出来的URL应该已经被抓取过了的吧?

相关推荐

    Flash抓取文件工具

    总的来说,Flash Decompiler v2.5.9.325是一款强大的工具,无论你是想了解SWF文件的工作原理,还是需要提取其中的资源,它都能提供有效的解决方案。随着技术的发展,尽管Flash逐渐淡出舞台,但对历史遗留的SWF文件...

    filddler测试工具报文抓取

    总的来说,Fiddler作为一个强大的HTTP调试工具,在接口测试中扮演着不可或缺的角色,它能帮助开发者和测试人员深入理解网络交互过程,快速定位和解决问题。然而,描述中的JavaCV部分可能需要进一步确认,因为其主要...

    有限训练样本下基于深度领域自适应的机器人物体抓取.pdf

    深度领域自适应的方法可以解决机器人抓取中的一个重要问题,即如何抓取新物体的问题。由于深度领域自适应可以将机器学习模型从源域迁移到目标域,因此可以解决不同域之间的分布差异问题,从而提高机器人抓取的性能。...

    知乎网站抓取

    递归是一种在函数内部调用自身的方法,用于解决具有重复子问题的问题。在这个项目中,递归将被用来遍历知乎用户的关注链,即从一个大V(影响力较高的用户)的关注列表开始,然后逐个抓取他们关注的其他用户,再继续...

    Silverlight Web模式下抓取摄像头内容图片 源代码

    在本文中,我们将深入探讨如何在...不过需要注意的是,随着Silverlight逐渐被HTML5和WebRTC等现代技术取代,这种解决方案可能不再是首选。但在某些遗留系统中,Silverlight的应用仍然广泛,理解这些技术仍然是必要的。

    网页FLASH抓取器 V7.0

    此外,Readme-说明.htm文件可能是该软件的使用指南或详细说明,其中可能包含如何操作软件、解决常见问题以及关于版权和许可的信息。用户在使用前应仔细阅读此文件,以确保正确合法地使用软件。 总的来说,网页FLASH...

    基于改进单次多框检测算法的机器人抓取系统.pdf

    为解决这一问题,提出了基于改进单次多框检测(SSD)算法的机器人抓取系统,该系统旨在同时完成零件的检测、分类、定位及抓取任务。 首先,改进的相机标定与手眼标定技术被应用于将像素坐标系转换到机器人世界坐标系...

    charles流量抓取工具,主要用于应用的流量分析

    它广泛应用于移动应用开发、网页调试、API测试等领域,帮助开发者理解网络请求的过程,查找并解决问题。Charles在Mac平台上尤为受欢迎,其简洁的界面和强大的功能使得它成为开发者的得力助手。 1. **基本概念** - ...

    yoink, 用于 What.CD的Freeleech种子抓取器.zip

    yoink, 用于 What.CD的Freeleech种子抓取器 请注意,由于对 What.CD API的限制,这个项目的开发已经停止。 直到我被人员明确地通知这些限制,开发... 请不要为解决方案创建拉请求。,一个用于 What.CD的Freeleech Torr

    C#写的新浪微博批量抓取器

    综上所述,这个C#编写的微博批量抓取器整合了多种技术,包括C#语言特性、OAuth认证、HTTP请求、JSON解析、数据抓取策略、异步编程和异常处理等,为从新浪微博获取大量数据提供了一个实用的解决方案。

    WebSpider蓝蜘蛛网页抓取 v5.1-webspider.zip

    综上所述,WebSpider蓝蜘蛛网页抓取工具凭借其Java语言的特性,实现了高效、灵活的网页抓取功能,为企业和个人提供了强大的信息采集解决方案。用户只需根据实际需求设置好参数,就能自动化地从互联网的海量信息中...

    Scrapy抓取美女图片并且保存

    Scrapy是一个强大的Python爬虫框架,它为网络数据抓取提供了高效、易用的解决方案。在本项目中,“Scrapy抓取美女图片并且保存”是一个典型的数据抓取应用,主要涉及以下几个关键知识点: 1. **Scrapy框架**:...

    Python爬虫抓取图片以及使用Spider模仿用户行为抓取403错误网页

    在Python编程领域,爬虫是一种常见的技术,用于自动地从互联网上抓取信息。...在实际项目中,还可能涉及更多复杂情况,如动态加载内容、登录抓取、JavaScript渲染等,这需要你继续深入学习和探索。

    金融行业的大数据应用案例及解决方案.doc

    通过Connotate、Datameer和Syncsort等公司的解决方案,金融机构可以有效利用大数据提升业务效能,实现精细化运营,降低风险,增强竞争力。随着大数据技术的不断发展,金融行业的数字化转型将进一步加速,大数据将在...

    SEO网站优化过程中常见的降权原因及解决方法.

    ### SEO网站优化过程中常见的降权原因及解决方法 在当今互联网时代,搜索引擎优化(SEO)已成为企业提升在线可见度和吸引潜在客户的不可或缺的工具之一。然而,在实施SEO策略的过程中,可能会遇到各种问题导致网站...

    python jike Time VIP课程信息 抓取脚本

    总结,这个Python爬虫项目展示了如何结合`requests`库进行网络请求,以及如何利用`peewee`进行数据持久化,为从"jike time"平台获取并存储VIP课程信息提供了一种解决方案。在实际开发中,我们还需要考虑诸如反爬策略...

    Fizzler数据抓取

    Fizzler数据抓取是一种高效且用户友好的网页元素选择工具,尤其在Web抓取和自动化测试领域中广泛应用。...同时,结合C#后台处理策略,可以有效地解决重复提交的问题,保证数据抓取的稳定性和效率。

    实验报告-爬虫-网络抓取-1.doc

    实验报告“实验报告-爬虫-网络抓取-1.doc”是关于网络内容抓取的实践,主要聚焦于使用Python编程语言实现一个简单的网络爬虫...此外,他们还将了解如何处理递归和迭代这两种不同的控制流结构,提高编程和问题解决能力。

    基于SIFT特征匹配的双目视觉图像识别定位系统研究答辩

    基于SIFT特征匹配的双目视觉图像...本研究为机器人抓取中的图像识别和定位提供了一个解决方案,但仍然存在一些挑战和改进空间。未来,我们将继续改进该系统,提高图像识别和定位的精度和速度,满足机器人抓取的需求。

    【RPA之家转载视频教程2】UiPath Studio中的数据抓取——使用UiPath将结果从网站复制到记事本.rar

    【RPA之家】提供的【RPA之家转载视频教程2】主要介绍了UiPath Studio中的数据抓取技术,通过这个教程,我们可以深入...同时,视频教程还鼓励大家在评论区互动,分享学习过程中的问题和解决方案,形成良好的学习氛围。

Global site tag (gtag.js) - Google Analytics