`

前嗅教程:采集网页链接/源码/时间/重定向地址等

阅读更多

第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②弹窗里填写采集地址,任务名称,如图2:

【图2】

③ 点击下一步,勾选抽取链接,选择网页内所有链接,如图3:

【图3】

④完成后模板抽取配置列表有一个模板,默认模板。默认模板下自动生成一个链接抽取,名称为网页全部链接,如4:

【图4】

第二步:创建新的模板,并新建数据抽取

①模板配置,点击“新建模板”按钮,得到新建模板,如图5。

【图5】

②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图6。

 

【图6】

关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将“网页全部链接”关联模板“新建模板02”,如图7:

 

   

【图7】

第三步:创建/选择表单

①在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三,如图8。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图8。

【图8】

配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、网页创建时间、网页获取时间、网页地址、全区内网页源码(包含当前标签)、选取内全部文本、选取内网页源码以及网页标题八个字段,表单如图9。

【图9】

以下字段为软件自带字段类型,无需确定选取取值。

网页主键:网页唯一标识。

网页创建时间:文档创建或网页发布的时间。

网页获取时间:ForeSpider采集该网页的时间。

网页地址:自动采集网页的URL地址。

选区内网页源码(包含当前标签):采集选区内全部源代码,包含当前节点标签等,即整个选区的源代码。

选区内全部文本:最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容

选区内网页源码:采集选区内全部源代码,不包含当前节点标签等。

网页标题:采集网页的标题。即网页<title>中的内容。

③ 数据抽取链接处关联表单,如图10。

【图10】

第四步:采集预览

①点击击右上角采集预览,如图11。

【图11】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图12、图13。

【图12】

        

【图13】

 

  • 大小: 2.3 KB
  • 大小: 33.3 KB
  • 大小: 29 KB
  • 大小: 8.9 KB
  • 大小: 10.3 KB
  • 大小: 11.7 KB
  • 大小: 71.9 KB
  • 大小: 63.4 KB
  • 大小: 56.7 KB
  • 大小: 36 KB
  • 大小: 116.9 KB
  • 大小: 103.2 KB
  • 大小: 107.2 KB
分享到:
评论

相关推荐

    KITTI数据集可视化源码,对应教程为:https://blog.csdn.net/cg129054036/article/details/119516704

    《使用源码实现KITTI数据集的可视化》 在计算机视觉领域,数据集的可视化是一项重要的任务,它有助于研究人员理解数据、验证算法效果以及优化模型性能。KITTI数据集是自动驾驶和三维视觉研究中广泛使用的一个大型...

    卡密社区SUP系统总控源码+主站分销系统功能源码

    卡密社区SUP系统总控源码+主站分销系统功能源码 跟以前的卡盟那种控制端差不多总控可以给别人开通,分销,主站,类似自己做系统商一样,自助发卡,卡密交易系统。 搭建环境Nginx1.22 mysql 5.7 php8.1 rids 7.2 ...

    c#写的OPC Client源码,VS2005工程文件

    c#写的OPC Client源码,VS2005工程文件,是完整的项目文件,不是网页版。 ///摘要 ///程式使用C#.NET 2005 编写 ///引用类库OPCDAAuto.dll ///OPCServer采用KEPWare ///在windows xp sp2、sp3、windows 2003上测试...

    手机APP游戏/软件/资源下载站/软件盒子源码

    这款是仿的一款软件盒子源码,pc端+手机端 因为是仿的后台栏目不要删除,以免出现问题,可以随意修改名称 安装教程: 1:上传网站源码 / 解压 2:修改数据库 config / database.php 文件修改数据库链接 3:后台地址...

    python3零基础源码笔记(2020-6-22打包)(基于千锋教育2019宋宋老师开源视频教程.7z

    0基础学习的源码笔记(非千锋官方,本人学习时参照千锋教程写出的). 源码是在 视窗系统 xp sp3 32位,蟒蛇3.4.4 32位,pycharm社区版2016.3.6 32位环境完成的. 感谢千锋教育的开源教程 千锋教育的开源教育视频(哔哩哔哩...

    智慧交通实战项目源码2 分卷2

    智慧交通实战项目源码2,源码1地址:https://download.csdn.net/download/qq_33283652/10915990

    天宇微信采集源码 v1.0.1.zip

    天宇微信采集源码 v1.0.1更新 1.修复部分BUG 天宇微信采集源码简介 天宇微信采集源码采用PHP Mysql进行开发。 天宇微信采集源码程序功能: 1.支持关键词内链 2.支持内容过滤 3.支持伪原创词汇(自带近6000条...

    科龙CMS蓝色企业快速建站源码

    资源标题:科龙蓝色企业快速建造源码 资源版本:科龙企业CMS1.7.3V 演示网站:http://demo.zzklwt.com 官方网站:http://www.zzklwt.com/ CMS教程:http://help.zzklwt.com 关键词:科龙伟特CMS网站管理系统,科龙...

    韩式风格个人网站源码.7z

    有速仿站工作室最新出品,该套源码完全免费,栏目包括主页/经典案例/服务项目/关于我们等,整站打包就十几M!分享给大家了!!! 1、演示地址:Http://Www.Youcoo.Net/Yulan/Cp/39.Html 2、作者主页:...

    最新UI六零导航系统源码 多模版全开源.zip

    六零导航页 (LyLme Spage) 致力于简洁高效无广告的上网导航和搜索入口,支持后台添加链接、自定义搜索引擎,沉淀最具价值链接,全站无商业推广,简约而不简单。 使用PHP+MySql,增加后台管理 多模板选择,支持在...

    ASP源码:学生证书查询管理系统,主要功能:通过(学号/姓名)来查询: 查询值:验证码: 

    ASP源码:学生证书查询管理系统,主要功能:通过(学号/姓名)来查询: 查询值:验证码:  可查询到(姓名,笔名,学号,性别,年龄,学制, 学历,毕业类型,入学时间,毕业时间,专业,班级,联系,电话留言,其他,还有照片上传功能...

    麻豆源码/视频源码/苹果cms-v10版本/带采集规则/完美运营版

    麻豆源码/视频源码/苹果cms-v10版本/带采集规则/完美运营版 一键部署版本 完美运营版本带采集规则模块

    freekan3.8.2电影网站源码自动采集

    freekan3.8.2电影网站源码自动采集 1.环境要求:php7+ 支持伪静态 2.将源码上传到网站根目录 3.http://你的域名/install 安装 后台地址:http://你的域名/admin 账号密码:admin admin

    易购商城小程序系统(小程序前端+后端源码)

    如果对您有帮助,您可以点右上角 “Star” 收藏一下 ,获取第一时间更新,谢谢! 扫码体验 小程序-二维码 项目演示 后台演示,用于管理发布内容、提供API接口等功能 演示地址:...

    自己搭建跨境电商平台APP www:商城后台目录源码 unapp:商城前台源码

    1、目录说明 www:商城后台目录源码 unapp:商城前台源码 2、安装教程 后台安装教程:http://XXXXX/install.html 编译发布小程序教程:http://XXXXX/publish.html 3、商城运营手册 http://sc.youdiancms.com

    2022微信小程序130个源码分享 解压密码123

    这里有一共130套微信小程序模板源码,包含移动端商城、小游戏、音乐、地图、小说、网络工具、打卡、页面布局、生成器、新闻应用、信息流、各种小工具等丰富实用的免费源码,部分小程序带有后台,非常适合新手入门...

    golang图片爬虫源码

    golang爬虫源码,支持图片列表以及单页面图片爬取,对于初学者有参考意义。该版本支持采集列表规则,页码{{n}}为变量 如:《https://www.58pic.com/collect/fav-{{n}}.html》 其中n为页码,起始页码一般默认为1 ####...

    电影院选座管理 源码

    影院在线选座的座位图实现 首先感谢的GitHub项目: 多点缩放移动:... 功能: 1. 显示座位图 2. 可缩放 3. 可移动 4. 可选座 5. 左侧显示座位排号 ...8. todo for 缩放比率

    完美解决Jave在linux下转为MP3时为0字节或其他异常

    通过解读源码,在windows下ok,而在linux下解析格式有所不同才导致上面的各种异常,最终修改了源码包中的Encoder.java,整合ffmpeg-2.7.2-x64版本 参考文献: 1、jave-1.0.2源码下载地址:...

    YYCMS影视网站源码

    这套影视源码轻便简单,界面美观,后台、资源、接口等需要自己添加,有些方面也可能又存在的其它问题,需要采集资源等做好之后才能验证,故无法保障说明没有其他问题, 有对接公众号功能,会员充值、对接第三方支付...

Global site tag (gtag.js) - Google Analytics