Gecco爬虫框架中的SpiderBean
Gecco是一个快速爬虫开发框架,能让开发人员快速的将爬取下来的页面转换为一个简单的java bean。所有的java bean都需要继承同一个接口SpiderBean。根据返回数据格式的不同可以将SpiderBean分成两个子接口——HtmlBean和JsonBean。SpiderBean的定义通常如下:
@Gecco(matchUrl="...")
public class TestHtmlBean implements HtmlBean {
@HtmlField(cssPath=".title")
private String title;
public void setTitle(String title) {
this.title=title;
}
public String getTitle() {
return title;
}
}
或
@Gecco(matchUrl="...")
pulbic class TestJsonBean implements JsonBean {
@JSONPath("$.title")
private String title;
public void setTitle(String title) {
this.title=title;
}
public String getTitle() {
return title;
}
}
详细的Gecco框架使用手册可以参考这里。
为什么要动态生成SpiderBean
- 已经定义了ORM(如:hiberante)的bean,将注解动态的加载到ORM的bean中,可以很方便的将页面格式化后入库
- 很多类似的网站的抓取,SpiderBean都一样,只是提取元素的cssPath不一样,为了不构建很多重复的SpiderBean,可以考虑动态生成SpiderBean
- 通过配置的方式抓取页面,通过后台管理系统、配置文件等配置抓取规则,动态的将配置规则转换成SpiderBean
- 利用动态SpiderBean可以构建可视化爬虫,利用可视化工具构建抓取规则,将规则动态转换为SpiderBean
动态生成SpiderBean的注解
这里介绍bean已经存在的情况下,如何动态的将注解注入到bean中,代码如下:
//动态增加注解
DynamicGecco.html("com.geccocrawler.gecco.demo.dynamic.MyGithub", false)
.gecco("https://github.com/{user}/{project}", "consolePipeline")
.existField("title").htmlField(".repository-meta-content").text(false).build()
.existField("star").htmlField(".pagehead-actions li:nth-child(2) .social-count").text(false).build()
.existField("fork").htmlField(".pagehead-actions li:nth-child(3) .social-count").text().build()
.existField("contributors").htmlField("ul.numbers-summary > li:nth-child(4) > a").href().build()
.existField("request").request().build()
.existField("user").requestParameter("user").build()
.existField("project").requestParameter().build()
.register();
以上动态注解的添加等同于:
@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline")
public class MyGithub implements HtmlBean {
@Request
private HttpRequest request;
@RequestParameter("user")
private String user;
@RequestParameter("project")
private String project;
@Text(own=false)
@HtmlField(cssPath=".repository-meta-content")
private String title;
@Text(own=false)
@HtmlField(cssPath=".pagehead-actions li:nth-child(2) .social-count")
private int star;
@Text
@HtmlField(cssPath=".pagehead-actions li:nth-child(3) .social-count")
private int fork;
@Href
@HtmlField(cssPath="ul.numbers-summary > li:nth-child(4) > a")
private String contributors;
...setter/getter...
}
注意:这种情况下,由于要对SpiderBean的注解进行动态生成,所有不要将动态生成注解的方法放到任何SpiderBean类中,最好单独写一个新的类用来生成动态注解。
动态生成类、属性和注解
这里介绍的是如何在没有任何Bean的情况下动态生成SpiderBean的全部内容,代码如下:
DynamicGecco.html()
.gecco("https://github.com/{user}/{project}", "consolePipeline")
.stringField("title", FieldType.stringType).htmlField(".repository-meta-content").text(false).build()
.intField("star", FieldType.intType).htmlField(".pagehead-actions li:nth-child(2) .social-count").text(false).build()
.intField("fork", FieldType.intType).htmlField(".pagehead-actions li:nth-child(3) .social-count").text().build()
.register();
以上方法等同于创建了一个这样的类:
@Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline")
public class MyGithub implements HtmlBean {
@Text(own=false)
@HtmlField(cssPath=".repository-meta-content")
private String title;
@Text(own=false)
@HtmlField(cssPath=".pagehead-actions li:nth-child(2) .social-count")
private int star;
@Text
@HtmlField(cssPath=".pagehead-actions li:nth-child(3) .social-count")
private int fork;
...setter/getter...
}
JsonPipeline的使用
由于编译器不知道运行时生成的SpiderBean的存在,这种请求我们通常将SpiderBean转为JSONObject来进行处理,通过继承JsonPipeline实现:
public class ProductListJsonPipeline extends JsonPipeline {
@Override
public void process(JSONObject productList) {
HttpRequest currRequest = HttpGetRequest.fromJson(productList.getJSONObject("request"));
//下一页继续抓取
int currPage = productList.getIntValue("currPage");
int nextPage = currPage + 1;
int totalPage = productList.getIntValue("totalPage");
if(nextPage <= totalPage) {
String nextUrl = "";
String currUrl = currRequest.getUrl();
if(currUrl.indexOf("page=") != -1) {
nextUrl = StringUtils.replaceOnce(currUrl, "page=" + currPage, "page=" + nextPage);
} else {
nextUrl = currUrl + "&" + "page=" + nextPage;
}
SchedulerContext.into(currRequest.subRequest(nextUrl));
}
}
}
Demo
全部demo位于源码下的com.geccocrawler.gecco.demo.dynamic包下,请感兴趣的同学自行下载。
相关推荐
VS集成C#开发ABB机器人二次开发:实时变量刷新与程序修改上位机系统,vs对ABB机器人二次开发C#集成PC SDK开发ABB机器人上位机开发 变量实时刷新,实时修改 io刷新修改, 在线程序修改实时刷新 上位机移动机械手 ,vs;ABB机器人二次开发;C#集成PC SDK;实时刷新;实时修改;io刷新修改;在线程序修改;上位机移动机械手,C#集成PC SDK开发ABB机器人上位机系统:实时刷新与修改功能
分布式系统与SCADA系统
,电机控制资料-- 注:本驱动器适合于直流有感无刷电机 功能特点 支持电压9V~36V,额定输出电流5A 支持电位器、开关、0~3.3V模拟信号范围、0 3.3 5 24V逻辑电平、PWM 频率 脉冲信号、RS485多种输入信号 支持占空比调速(调压)、速度闭环控制(稳速)、电流控制(稳流)多种调速方式 支持按键控制正反转速度,启停 特色功能 1. 霍尔自学习 电机的三相线和三霍尔信号线可不按顺序连接,驱动器可自动对电机霍尔顺序进行学习。 2. 稳速控制响应时间短 稳速控制时电机由正转2000RPM切为反转2000RPM,用时约1.0s,电机切过程平稳 3. 极低速稳速控制 电机进行极低速稳速控制,电机稳速控制均匀,无忽快忽慢现象。
欧姆龙CX-Programmer CP系列PLC功能块详解:伺服、步进、气缸及普通电机控制应用解析,欧姆龙cx-programmer CP系列PLC做的功能块,包括伺服,步进,气缸普通电机的控制。 ,欧姆龙CX-Programmer; CP系列PLC; 伺服控制; 步进控制; 电机控制; 气缸控制,欧姆龙CX-Programmer PLC:CP系列功能块与多种电机控制
基于comsol电弧与熔池热物理交互现象的研究,comsol电弧熔池耦合 ,comsol; 电弧熔池; 耦合,COMSOL电弧与熔池的耦合技术
,自动泊车APA开发,超声波算法开发
nodejs010-nodejs-config-chain-1.1.8-2.el6.centos.alt.noarch.rpm
FLAC3D蠕变命令流详解:博格斯本构模型的时间步长自动调整实践与应用,附图一至图三竖向位移云图变化及图四拱顶沉降趋势分析。,flac3d蠕变命令流,蠕变本构模型采用博格斯本构,时间步长自动调整,5.0和6.0命令均有,配有文字和视频解释。 图一至图三为不同蠕变时间下的竖向位移云图,图四为拱顶沉降随时间的变化趋势。 ,flac3d;蠕变命令流;博格斯本构;时间步长自动调整;5.0和6.0命令;文字解释;视频解释;竖向位移云图;拱顶沉降随时间变化趋势。,FLAC3D蠕变命令流:博格斯本构自动调整时间步长解释
免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程 启动教程:https://www.bilibili.com/video/BV1SzbFe7EGZ 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
超导电机性能及波形特征分析,某超导电机性能及其波形 ,超导电机性能; 波形; 性能指标; 波形分析,超导电机性能与波形分析
逆磁致伸缩效应:应变与磁导率互变之效应解析,逆磁致伸缩效应,应变造成磁导率改变 ,逆磁致伸缩效应; 磁导率变化; 应变影响; 磁性材料响应,逆磁致伸缩效应:磁导率随应变变化
基于VS2015+Qt5.9+Halcon20的多个相机缺陷检测源码,可稳定运行并支持多种相机缺陷检测功能,多个相机缺陷检测源码 vs2015+qt5.9+halcon20 可正常运行 ,多个相机;缺陷检测;源码;VS2015;Qt5.9;Halcon20;可正常运行,"Halcon源码检测系统,基于VS2015与Qt5.9,相机缺陷检测"
内容概要:本文旨在作为GitHub平台针对初学者的实用教程,涵盖从GitHub账号注册、仓库创建、代码管理、提交以及团队协作等全过程。文章详述了GitHub的基础使用方法,包括如何创建和配置代码仓库、使用Git命令进行代码的上传和变更处理、参与到开源项目的步骤,以及创建团队和管理权限的方式。还介绍了几个重要的Git命令及其作用,有助于用户理解版本控制系统的核心思想。通过这些指导,能够使开发者更快地适应这一流行工具,从而提升编码效率,提高协作效能。此外,也推荐使用者多多练习并投身实际操作,以此来累积更多的使用技巧。 适用人群:面向所有初次接触或正在初步探索GitHub使用方法的新用户,无论是独立工作者还是软件工程专业的学生均能从中受益。 使用场景及目标:主要目的是为了让新手能迅速熟悉并掌握GitHub的各项基本技能,以便更好地应用于日常的代码开发过程中。无论你是想要将自己的作品分享出来获取反馈,或是加入某个开源社区贡献自己的一份力量,本文都能提供完整的路径指引。 其他说明:虽然本指南涵盖了GitHub最常用的特性介绍,但对于高级设置及更复杂的用例则有所省略,若想深入了解相关进阶知识点,请参阅官方文档或者进一步研究其他权威资料。
deepseek部署教程.md
"Comsol电力变压器内部热源计算与热流耦合分析模型:温度场与流体场数值计算方法研究",comsol电力变压器温度场和流体场数值计算模型,通过变压器电磁场计算得到热源大小,最后通过热流耦合计算得到变压器内部温度场和流体场分布, ,核心关键词:Comsol模型; 电力变压器; 温度场; 流体场; 数值计算; 电磁场计算; 热流耦合计算; 内部温度场分布; 流体场分布。,"电力变压器温度场与流体场数值计算模型研究"
免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程 启动教程:https://www.bilibili.com/video/BV1SzbFe7EGZ 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
1、文件内容:publican-redhat-2.7-6.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/publican-redhat-2.7-6.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装
S7-200 Smart V3.0 固件升级包_测试版2025.02
免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程 启动教程:https://www.bilibili.com/video/BV1SzbFe7EGZ 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
基于深度强化学习的微电网能量管理策略优化——双深度期望Q网络算法的应用与实践,python代码-基于深度期望Q网络算法的微电网能量管理策略-002 关键词:光伏发电、微电网能量管理、深度强化学习、双深度期望 Q 网络 内容:随着光伏发电在微电网中的渗透率不断提高,其发电出力的不确定性和时变性为微电网的经济运行带来了挑战。 在构建经济调度模型时,就需要适当模拟不确定变量并相应地发展高效求解算法。 在此背景下,文中提出能够有效计及不确定性因素的深度强化学习算法,以实时求解微电网的优化运行问题。 为此,提出双深度期望Q网络算法,通过考虑状态转移的随机性,优化一般深度Q网络算法的Q迭代规则,显著提高算法的收敛速度。 ,关键词:光伏发电; 微电网能量管理; 深度强化学习; 双深度期望Q网络; 优化运行; 随机性; 收敛速度,基于双深度期望Q网络的微电网能量管理策略研究