`
wangwei3
  • 浏览: 121576 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

job配置经验分享

CSS 
阅读更多
我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少?
或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的?
下面我们一点点来解决!
下载到的链接太少  其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少
个人建议用BroadScope
可是如果用了broadscope的话,下载到的东西又太多,因为他没有做任何限制!好多东西都不是我们想要的,比如js,css,jpg等等
我们需要扩展它的接口Extractor或者Scheduler
不过拓展这个接口是个很麻烦的问题,heritrix的原理大家都知道,判断链接通过scheduler才能下载,让后去解析里面的URL,所以我们要找全所有最终要下载页面的所有URL,让后定制出正则,一定要层层递进,不能断层。这样就可以快速的下载到我们所需的页面了!本人建议采用Scheduler,因为Extractor还要自己去提取url常常因为自己写的正则不太理想导致少抽取到URL!
分享到:
评论

相关推荐

    elastic-job例子

    10. **社区活跃**:作为开源项目,Elastic-Job拥有活跃的社区支持,开发者可以在社区中寻求帮助,分享经验,共同推动项目发展。 在实际应用中,Elastic-Job可以广泛应用于大数据处理、定时任务、批量操作等场景。...

    DataStage_项目经验分享.doc

    在本文档中,作者分享了在DataStage项目中的实际经验,涵盖了多个常见的问题及其解决方案。DataStage是一款强大的ETL(Extract, Transform, Load)工具,用于从各种数据源抽取、转换和加载数据。以下是对这些问题和...

    elastic-job-lite-console-2.1.5.zip

    在CSDN等平台,这样的资源可能需要较高的分数才能下载,但你找到了一个可以免费分享的版本,且经过测试确认可用,这对于需要使用Elastic-Job的开发者来说是一大福音。 "预习资料"中的《任务调度之Elastic-Job.doc》...

    Spring Quatz 书-Quartz.Job.Scheduling.Framework.Building

    同时,也会介绍JobDetail的配置,包括Job类的设计、数据绑定以及作业状态的持久化。 4. **并发和线程管理**:Quartz支持多线程执行,书中会讲解如何处理并发问题,例如避免多个实例同时执行同一作业,以及如何调整...

    xuxueli0323-xxl-job-master.zip

    XXL-JOB拥有活跃的社区,开发者可以在这里获取帮助、分享经验,共同推动项目的完善和发展。 综上所述,XXL-JOB作为一个Java实现的分布式任务调度平台,具备完整的任务管理、调度策略、执行器集群管理和监控告警等...

    job源码上传

    【标题】:“Job源码上传”指的是将与定时任务相关的源代码进行分享,可能是某个项目的作业调度模块。在IT行业中,Job通常指的是执行特定任务的程序或者服务,尤其是在分布式系统和大数据处理中,Job用于定时或按需...

    Java.J2EE.Job.Interview.Companion.2nd.Edition.Apr.2007.pdf

    综上所述,《Java/J2EE Job Interview Companion》是一本全面覆盖Java/J2EE领域的面试指南,不仅提供了丰富的面试题目解答,还涵盖了大量实用的开发技巧和经验分享,是准备Java/J2EE相关职位面试的理想参考资料。

    quartz

    在博文中,作者分享了关于 Quartz 的使用经验和知识,虽然具体内容未给出,但我们可以从一般的角度来探讨 Quartz 的核心概念和特性: 1. **Job** 和 **Trigger**: Job 是实际需要执行的任务,而 Trigger 定义了何时...

    matlab_集群搭建及使用

    - **社区论坛**:分享实践经验,获取技术支持。 - **培训课程**:参加官方或第三方提供的培训课程,深入了解MATLAB集群的应用技巧。 #### 六、外部链接 - [MATLAB Parallel Computing Toolbox]...

    Job4j-Lessons

    【标题】"Job4j-Lessons" 是一个与Java编程相关的学习资源,它很可能是一个教程或课程集合,专门用于帮助初学者和进阶...同时,由于它是开源的,所以也鼓励学习者参与到课程的改进和更新中,分享自己的学习成果和经验。

    Spring quartz

    描述中提到的博客链接虽然没有具体内容,但通常博主会分享关于如何在 Spring 中使用 Quartz 的实践经验和技巧,包括但不限于配置、任务创建、触发器设定等。 标签 "源码" 和 "工具" 暗示了我们将讨论 Quartz 和 ...

    datastage学习笔记

    DataStage是一款强大的企业级ETL(Extract, Transform, Load)工具,由IBM开发,用于从各种数据源抽取、转换和加载数据到数据仓库或数据湖。...同时,关注社区(如CSDN)中分享的经验和最佳实践,也能加速学习进程。

    kettle入门文档资料合集

    《kettle记录.docx》可能是用户在学习过程中的一些笔记或心得,记录了使用Kettle时遇到的问题及解决方案,这类文档通常包含实践中的实用技巧和经验分享,对于初学者来说是宝贵的实战经验。 至于“demo”文件夹,它...

    Spring.Batch.in.Action.pdf

    ### Spring Batch核心概念与应用详解 ...通过以上章节的详细介绍,《Spring Batch in Action》不仅为读者提供了全面的技术指导,还分享了许多实用的经验和技巧,非常适合希望深入学习Spring Batch的开发者阅读。

    ETL工具Kettle用户手册

    9. **最佳实践**:分享在实际项目中使用Kettle的经验和技巧,帮助用户避免常见问题。 10. **API与插件开发**:对于高级用户,手册还会介绍如何使用Kettle的API进行自定义开发,以及如何扩展和贡献新的步骤或插件。 ...

    Java 定时任务及作业调度 Quartz与Timer

    在博客链接中,博主分享了关于Quartz的使用经验,包括如何配置、创建Job和Trigger,以及如何在项目中集成Quartz。在压缩包文件"Quartz"中,可能包含了示例代码或项目的源码,供学习者参考和实践。 总的来说,理解并...

    HadoopIntellijPlugin-1.0.zip(idea上的hadoop插件)

    2. **Hadoop Job管理**:插件支持查看和管理Hadoop集群上的作业(Job),包括提交、监控和停止Job,方便开发者实时跟踪作业状态。 3. **代码智能提示与集成**:提供对Hadoop API的智能提示,包括类、方法等,帮助...

Global site tag (gtag.js) - Google Analytics