`
xtuhcy
  • 浏览: 142552 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

gecco 1.1.0稳定版发布,易用的轻量化爬虫

阅读更多

gecco 1.1.0稳定版发布了

1.1.0版本主要做了如下修改:

1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理
2.HttpClientDownloader支持类似12306网站非信任ssl证书
3.JsonBean支持嵌套解析
4.修复部分网站302无法跳转的bug
5.优化debug日志输出

 

gecco是一款易用的轻量化网络爬虫。十分的容易上手。

 

主要特征:

  1. 简单易用,使用jquery风格的选择器抽取元素
    2.支持页面中的异步ajax请求
    3.支持页面中的javascript变量抽取
    4.利用Redis实现分布式抓取,参考gecco-redis
    5.支持结合Spring开发业务逻辑,参考gecco-spring
    6.支持htmlunit扩展,参考gecco-htmlunit
    7.支持插件扩展机制
    8.支持下载时UserAgent随机选取
    9.支持下载代理服务器随机选取

0
7
分享到:
评论
1 楼 nwater 2016-07-14  
楼主,我在使用gecco核心库开发时,出现下面的错误,请问这种问题是由什么原因引起的?

[Spider-0] DEBUG org.apache.http.impl.conn.PoolingHttpClientConnectionManager - Connection released: [id: 0][route: {s}->https://movie.douban.com:443][total kept alive: 0; route allocated: 0 of 50; total allocated: 0 of 1000]
[Spider-0] ERROR com.geccocrawler.gecco.spider.Spider - com.geccocrawler.gecco.spider.render.RenderException: null
[Spider-0] ERROR com.geccocrawler.gecco.spider.Spider - https://xxxxxxxxxxxx RENDER ERROR : com.banku.crawler.movie.MovieList
[main] DEBUG org.apache.http.impl.conn.PoolingHttpClientConnectionManager - Connection manager is shutting down


部分代码
@Gecco(matchUrl = "https://xxxxxxx.com/tag/{tag}?start={page}&type=T", pipelines = "consolePipeline")
public class MovieList implements HtmlBean {

	/**
	 * 
	 */
	private static final long serialVersionUID = 8487778806984376953L;

	@Request
	private HttpRequest request;

	@RequestParameter("page")
	private String page;
}

相关推荐

    Android Studio V1.1.0稳定版

    Android Studio 1.1.0 稳定版 2015年02月更新

    duxcms网站内容管理系统v1.1.0稳定版

    运行环境 操作系统:windows/linux/macosx 服务器环境:apache2.X/IIS5 /NGNIX(需要开启INFO模式支持) PHP版本:5.2/5.3 MYSQL版本:5.1及以上 程序特点 1、小巧易用,程序压缩后大小只有1M左右,虽小功能却不简单...

    duxcms内容管理系统 v1.1.0 稳定版

    4、简单的模板开发,程序采用了独有的模板标签来分离程序和界面的开发,标签简单易用让你快速开发出心仪的界面。 5、附加模型字段,使用程序中往往会有多的字段需要使用比如产品编号等,这些可以使用附加模型来解决...

    duxcms内容管理系统 v1.1.0 稳定版.rar

    8、开源免费,源码完全无加密开发,免去了您的后顾之忧,程序可免费无限制使用,但是禁止包皮发布。 运行环境: 操作系统:windows/linux/macosx服务器环境:apache2.X/IIS5 /NGNIX(需要开启INFO模式支持)PHP版本...

    朗图吓数1.1.0免费版

    而朗图吓数1.1.0免费版通过数字化的方式,将这一过程变得直观和便捷。用户界面友好,操作简单,即使是没有任何电脑基础的编织者也能快速上手。软件内置的各种预设吓数可以满足不同风格的需求,同时也支持用户自定义...

    Shang Blog v1.1.0 编译版.rar

    Shang Blog 1.1.0 Final 版发布,这次对长久以来未更新的Shang Blog 1.0 做出了一些更新和细微的变化 1、Shang Blog的更新现在是基于Shangducms Framework的了,相对于以前来说,结构更好,更容易维护 2、Shang Blog...

    Rope轻量级ETL工具 v1.1.0.zip

    Rope轻量级ETL工具 v1.1.0是一款专为数据处理设计的实用软件工具,它以高效、易用为核心理念,旨在简化数据提取(Extract)、转换(Transform)和加载(Load)的过程,尤其适用于毕业设计论文或计算机案例中的数据...

    github atom1.1.0(windows版)

    用户在升级到1.1.0版本时,可以期待更稳定、更高效的使用体验。 3. **Windows版的注意事项**: - 在Windows环境下安装Atom,可能需要确保系统已安装.NET Framework,这是许多Windows应用的基础。 - 安装过程中,...

    安卓元气壁纸v1.1.0纯净版.txt打包整理.zip

    安卓元气壁纸v1.1.0纯净版.txt打包整理.zip

    openssl1.1.0.rar

    这种分离有助于模块化开发和减少不必要的依赖。 6. **编译与配置**:对于开发者来说,OpenSSL 1.1.0 的编译和配置过程也有所简化。新的构建系统可以更好地适应不同平台和编译器,使得在 Win32(32位Windows系统)等...

    Mac Photolemur_3_v1.1.0中文版.dmg

    支持RAW、JPEG、TIFF或PNG等格式,采用简单易用的拖拽操作,可以在人工智能的帮助下自动生成所有图像,号称是“世界上第一款完全自动化的照片升级程序”。Photolemur 3操作简单,你只需要导入照片即可,所有的工作都...

    PHP轻量级框架(YPHP) v1.1.0

    YPHP轻量级框架Bug修复 ( YPHP轻量级PHP框架版本更新至 V 1.1.0 ) 一、已解决实例化模块时,用户不能手动指定默认执行的类和默认执行的方法! 二、已解决类或方法不存在,导致系统实例化出错问题! 三、已解决...

    seata-1.1.0.zip

    它的目标是为微服务架构提供高性能、轻量级的分布式事务处理能力,以解决在大规模分布式系统中出现的事务一致性问题。Seata 的 1.1.0 版本是在其早期版本的基础上进行优化和改进的,旨在提升系统的稳定性和易用性。 ...

    pydot的1.1.0版本安装包

    Pydot在数据可视化、算法流程展示、网络拓扑图制作等方面都有广泛的应用,尤其在机器学习和人工智能领域,用于描绘决策树、神经网络结构等。 总结来说,Pydot 1.1.0是一个强大的Python库,它允许程序员利用DOT语言...

    SimpleMySQLAssistPlugin1.1.0版本修正版.zip

    "SimpleMySQLAssistPlugin1.1.0版本修正版"就是专为解决UE4与MySQL数据库通信问题而设计的一个高效、易用的插件。 首先,我们来了解下这个插件的基本信息。"SimpleMySQLAssistPlugin"是一个针对UE4的MySQL操作插件...

    jadx-1.1.0最新版

    Jadx gui是一款JAVA反编译工具。一个简单轻巧的 DEX 到 Java 反编译器,可让您导入 DEX,APK,JAR 或 CLASS 文件并将其快速导出为 DEX 格式。如果您是 Android 开发人员,您可能会理解,没有适当的软件帮助,就无法...

    seata-server 1.1.0 0.0.9 1.0.0 版本下载

    由于github实在太慢 找遍csdn又太贵 下载完后就分享了 seata-server-1.1.0 1.0.0 0.0.9版本 3个版本 现在最新是1.1.0 本人要集成的是consul 还没折腾完 只用了0.0.8的

    RT-Thread 1.1.0正式版

    它不仅仅是一款高效、稳定的实时核心,也是一套面向嵌入式系统的软件平台,覆盖了全抢占的实时操作系统内核,小巧而与底层具体实现无关的文件系统,轻型的TCP/IP协议栈以及轻型的多窗口多线程图形用户界面。

    OpenSSL 1.1.0e

    开发者会发布新版本来应对新的威胁或改进现有功能。 2. **SSL/TLS 协议支持**:OpenSSL 支持 SSLv3、TLSv1.0、TLSv1.1、TLSv1.2 和 TLSv1.3(在某些版本中)。1.1.0e 版本可能已经针对 TLS 1.3 进行了优化,因为这...

    iReport-1.1.0.zip

    在软件升级过程中,为了保持系统稳定性和避免数据迁移的复杂性,有些企业选择继续使用旧版软件。IReport 1.1.0正是为这些情况而保留的,它能与这些老版本的软件无缝对接,确保报表设计和展示的顺利进行。 此外,...

Global site tag (gtag.js) - Google Analytics