`

ForeSpider采集教程发布(论坛类):零基础轻松获取数据

阅读更多

本篇以360问答论坛为例:

一.网站结构

1.网站截图说明

某些网站需要登陆后才可进行内容的采集,登陆时需先对登陆信息输入位置进行定位,便于后续采集

【网站登陆页】

【采集列表页】

2.采集结果截图

 

【检索列表链接】

【检索结果数据】

二.配置模板

1.新建任务

【新建任务】

2.新建采集任务

【新建采集任务】

本次采集列表下的正文数据,所以本次需要抽取内容选择【链接列表】,为了将每一页的内容都成功采集选择【普通翻页】

3.配置登陆

【网站登录界面】

①内置浏览器找到登录按钮,弹出登录框

【网站登录顺序】

②先点击【用户名】

【输入框定位】

③如上图,对【用户名输入框】进行定位,crtl+左键点击【用户名输入框】的位置,直至被绿色框住代表定位成功,并按此方式完成的位置定位

【定位成功界面】

④【用户名】和【密码】定位完成后,点击,cookie配置框中出现数据,按Ctrl+鼠标左键单击“登录按钮”,内置浏览器页面登录成功,配置完成

4.配置模板

【采集预览】

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“thread-”

【地址过滤】

②勾选地址过滤,过滤规则选择包含,填入“thread-”

【标题过滤】

③勾选标题过滤,过滤规则选择包含,填入''下一页''

 

【采集预览】

④点击采集预览,下一页和包含''thread-''的内容都被成功过滤,如下图:

5. 模板关联

 

【模板关联】

根据网页跳转规律,将【链接列表】关联【链接列表:02】, 【普通翻页】关联【默认模板:01】,此处软件已自动进行了关联,如果配置时发现关联有问题,可自行进行更改

6.数据抽取

【数据抽取】

将模板一过滤得到的任意一条链接,作为链接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html

7.新建数据抽取

【新建数据抽取】

新建数据抽取。直接点击链接列表,点击上面“新建数据抽取” 按钮,得到数据抽取,如下图:

8. 创建/选择表单

①创建表单

【创建表单】

②配置表单

【配置表单】

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、发布时间、正文内,网页标题以及网页地址五个字段,以配置发布时间(pubtime)为例

③数据抽取链接关联表单

【关联表单】

选择刚才新创建的表单''360问答''

9.字段定位

【字段定位】

主键字段自动生成无需定位,以pubtime字段为例进行定位,如下图所示,将各字段依次定位

10.采集预览

【采集预览】

字段定位完成后,进行模板预览,查看是否所需内容都被采集进来

四.数据采集

1.连接数据库

【连接数据库】

2.关联数据表

【关联数据表】

3.选中数据表

【选中数据表】

4.开始采集

【开始采集】

分享到:
评论

相关推荐

    forespider数据采集软件

    前嗅forespider数据采集软件正是为解决这一需求而生,它是一款专为非专业编程人员设计的可视化数据采集工具,使得即使是没有编程基础的用户也能轻松进行网页数据的抓取。 **一、forespider软件概述** forespider...

    win7修复本地系统工具

    win7修复本地系统工具

    《自动化专业英语》04-Automatic-Detection-Block(自动检测模块).ppt

    《自动化专业英语》04-Automatic-Detection-Block(自动检测模块).ppt

    《计算机专业英语》chapter12-Intelligent-Transportation.ppt

    《计算机专业英语》chapter12-Intelligent-Transportation.ppt

    西门子S7-1200博图平台下3轴伺服螺丝机程序解析与应用

    内容概要:本文详细介绍了基于西门子S7-1200博图平台的3轴伺服螺丝机程序。该程序使用SCL语言编写,结合KTP700组态和TIA V14及以上版本,实现了对X、Y、Z三个轴的精密控制。文章首先概述了程序的整体架构,强调了其在自动化控制领域的高参考价值。接着深入探讨了关键代码片段,如轴初始化、运动控制以及主程序的设计思路。此外,还展示了如何通过KTP700组态实现人机交互,并分享了一些实用的操作技巧和技术细节,如状态机设计、HMI交互、异常处理等。 适用人群:从事自动化控制系统开发的技术人员,尤其是对西门子PLC编程感兴趣的工程师。 使用场景及目标:适用于希望深入了解西门子S7-1200博图平台及其SCL语言编程特点的学习者;旨在帮助读者掌握3轴伺服系统的具体实现方法,提高实际项目中的编程能力。 其他说明:文中提供的代码示例和设计理念不仅有助于理解和学习,还能直接应用于类似的实际工程项目中。

    MATLAB仿真:非线性滤波器在水下长基线定位(LBL)系统的应用与比较

    内容概要:本文详细探讨了五种非线性滤波器(卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)、粒子滤波(PF)和变维卡尔曼滤波(VDKF))在水下长基线定位(LBL)系统中的应用。通过对每种滤波器的具体实现进行MATLAB代码展示,分析了它们在不同条件下的优缺点。例如,KF适用于线性系统但在非线性环境中失效;EKF通过雅可比矩阵线性化处理非线性问题,但在剧烈机动时表现不佳;UKF利用sigma点处理非线性,精度较高但计算量大;PF采用蒙特卡罗方法,鲁棒性强但计算耗时;VDKF能够动态调整状态维度,适合信标数量变化的场景。 适合人群:从事水下机器人(AUV)导航研究的技术人员、研究生以及对非线性滤波感兴趣的科研工作者。 使用场景及目标:①理解各种非线性滤波器的工作原理及其在水下定位中的具体应用;②评估不同滤波器在特定条件下的性能,以便为实际项目选择合适的滤波器;③掌握MATLAB实现非线性滤波器的方法和技术。 其他说明:文中提供了详细的MATLAB代码片段,帮助读者更好地理解和实现这些滤波器。此外,还讨论了数值稳定性问题和一些实用技巧,如Cholesky分解失败的处理方法。

    VMware-workstation-full-14.1.3-9474260

    VMware-workstation-full-14.1.3-9474260

    DeepSeek系列-提示词工程和落地场景.pdf

    DeepSeek系列-提示词工程和落地场景.pdf

    javaSE阶段面试题

    javaSE阶段面试题

    《综合布线施工技术》第5章-综合布线工程测试.ppt

    《综合布线施工技术》第5章-综合布线工程测试.ppt

    安川机器人NX100使用说明书.pdf

    安川机器人NX100使用说明书.pdf

    S7-1200 PLC改造M7120平面磨床电气控制系统:IO分配、梯形图设计及组态画面实现

    内容概要:本文详细介绍了将M7120型平面磨床的传统继电器控制系统升级为基于西门子S7-1200 PLC的自动化控制系统的过程。主要内容涵盖IO分配、梯形图设计和组态画面实现。通过合理的IO分配,确保了系统的可靠性和可维护性;梯形图设计实现了主控制逻辑、砂轮升降控制和报警逻辑等功能;组态画面则提供了友好的人机交互界面,便于操作和监控。此次改造显著提高了设备的自动化水平、运行效率和可靠性,降低了维护成本。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是熟悉PLC编程和控制系统设计的专业人士。 使用场景及目标:适用于需要进行老旧设备升级改造的企业,旨在提高生产设备的自动化水平和可靠性,降低故障率和维护成本。具体应用场景包括但不限于金属加工行业中的平面磨床等设备的控制系统改造。 其他说明:文中还分享了一些实际调试中的经验和技巧,如急停逻辑的设计、信号抖动的处理方法等,有助于读者在类似项目中借鉴和应用。

    chromedriver-linux64-136.0.7103.48.zip

    chromedriver-linux64-136.0.7103.48.zip

    IMG_20250421_180507.jpg

    IMG_20250421_180507.jpg

    《网络营销策划实务》项目一-网络营销策划认知.ppt

    《网络营销策划实务》项目一-网络营销策划认知.ppt

    Lianantech_Security-Vulnerabil_1744433229.zip

    Lianantech_Security-Vulnerabil_1744433229

    MybatisCodeHelperNew2019.1-2023.1-3.4.1.zip

    MybatisCodeHelperNew2019.1-2023.1-3.4.1

    《Approaching(Almost)any machine learning problem》中文版第13章(最后一章)

    【深度学习部署】基于Docker的BERT模型训练与API服务部署:实现代码复用与模型共享

    火车票订票系统设计与实现(代码+数据库+LW)

    摘  要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装火车票订票系统软件来发挥其高效地信息处理的作用,可以规范信息管理流程,让管理工作可以系统化和程序化,同时,火车票订票系统的有效运用可以帮助管理人员准确快速地处理信息。 火车票订票系统在对开发工具的选择上也很慎重,为了便于开发实现,选择的开发工具为Eclipse,选择的数据库工具为Mysql。以此搭建开发环境实现火车票订票系统的功能。其中管理员管理用户,新闻公告。 火车票订票系统是一款运用软件开发技术设计实现的应用系统,在信息处理上可以达到快速的目的,不管是针对数据添加,数据维护和统计,以及数据查询等处理要求,火车票订票系统都可以轻松应对。 关键词:火车票订票系统;SpringBoot框架,系统分析,数据库设计

    【ABB机器人】-00标准保养简介.pdf

    【ABB机器人】-00标准保养简介.pdf

Global site tag (gtag.js) - Google Analytics