`
文章列表
今天,小编为大家介绍前嗅ForeSpider脚本中的语法规则——变量申明及引用。在此之前先为大家介绍一下,语法规则中的注释和标准常量,具体内容如下:   一 .注释 ForeSpider脚本的注释类似于C++及JavaScript。通常有两种方式:单行注释和块注释。 1.单行注释 //这是行注释 2.块注释 /*这是块注释这是块注释这是块注释这是块注释*/ 二.标准常量 NULL: 空值,未初始化变量[ 类型: object ] 三.变量申明及引用 ForeSpider脚本变量名称符合C++、JavaScript等标准语言的命名规则。(即:a~z26个大小写字母,0~9的 ...
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置。今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置。具体操作如下:   当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。当我们点采集预览时,就会弹出一个验证码的输入框,只有输入验证码才能浏览数据。 ​ 【验证码弹出框】 ​ 【输入验证码后采集预览结果】 验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。
今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分。具体内容如下:   一,启用IP代理   启用IP代理采集时,需要进行代理配置。   1.启用IP代理 需选中“启用IP代理”,才能启用IP代理功能。 ​ 【启用代理IP】   2.启用代理加速 启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理IP(屏蔽错误率超过50%,请求次数>3次的IP),优先使用高效的代理,提升采集的效率和数据质量。   3.本机IP混用策略 当代理IP失效时,选择是否启用本地网络。 ...
今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的任务定时,预警设置,过滤设置,这三大模块。具体内容如下:   一,任务定时   ​ 【任务定时】 用户可以通过任务定时,进行自动启动/停止采集。也可以选择 ...
今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的网络超时,HTTP设置,加载设置,任务模式,这四大模块。具体内容如下:   一,网络超时   ​ 【网络超时】 1. 接收超时 当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。   2. 发送超时 当采集的数据量过大时,可以将发送超时的时间调大。   3. 重试次数 网络连接失败后重新连接的次数。网络状态不稳定时,可以将重试次数调大。     二,http设置  
今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的采集速度,采集策略和任务装载,这三大模块。具体内容如下:   一,采集速度   采集速度是调节任务采集快慢的一项设置,对采集速度的影响包括线程数目和采集间隔。 ​ 【采集速度】   1.线程数目 线程数目是运行采集任务时,软件启用的线程资源数目。线程数目越大,采集速度越快。   2.采集间隔 是指任务采集链接之间时间间隔。用户可以直接滑动按钮进行设置采集间隔,也可以直接填写采集间隔的时间数。   二,采集策略   根据记录的采集日志,选择下次采集任务的采集策略。
今天,小编为大家带来的教程是数据浏览与可视化。主要内容包括:查看数据,按条件检索数据,外部数据导入和数据导出等内容。具体内容如下:   一,查看数据表中的数据   在“数据采集”页面开始采集后,可以在“数 ...
今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:   一,自动取值的字段包括哪些   当字段设置为下列采集 ...
今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:   一,自动取值的字段包括哪些   当字段设置为下列采集 ...
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。   一,如何快速建表 若 ...
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下:       一,如何选择表单       在ForeSpider爬虫中,表单是可以复用的表结构,建好的表单可以重复用于多个任务。     【数据表选择页】       1.选择表单       方法一:通过下拉菜单,或填写表单ID,选择已有表单。   方法二:快速建表,点击创建表单,进入快速建表页面,新建表单。(>>详见快速建表)   方法三:自由建表,点击“采集配置”-“数据建表”,点 ...
今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:   一,如何关联模板   “链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。 在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。   关联方式如下: ①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。 ②手动关联:用户可在链接抽取节点进行手 ...
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行采集预览。主要内容包括:采集预览的使用方法,预览链接/数据抽取,和预览错误情况排查;具体内容如下:   一,采集预览的使用方法   1.采集预览 在正式采 ...
今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下:   一,模板的概念   模板列表的层级相当于网页跳转的层级。模板一类似于网站首页,每个模板代表了同一层级的页面,通过适当的配置,可以采集全站数据。 正如网站是通过链接之间的跳转,来实现网站各层级页面的连接,ForeSpider也是通过模板中的链接抽取,来实现模板之间的关联。通过抽取网页中的全部链接,再进行精准过滤,就可以既全面又精确的获取所需的全部数据。 正如网站通过正文/数据页展示数据,ForeSpider也是通过模板中的数据抽取,来获取 ...
当我们在采集中碰到:所采集的网站数据需要登录,才可以看到所需信息时,则需要在软件中模拟登陆环境,采集数据,此时需要配置登录信息。   今天小编就教大家:如何进行网站登录配置,具体步骤如下: 【登录网站配置】   第一步:打开登录网站按钮   点击登录网站按钮, “登录网站”功能启动。   ①手动:默认方式。当登录的Cookie失效后,需要重新配置登录。   ②自动:会记住用户名和密码,Cookie失效后会自动登录,但对于复杂的登录逻辑,不一定能够生效,如果未生效,仍需通过手动方式再次配置。   第二步:进行登录配置:   开启登录配置后,在界面右下角会出现登录 ...
Global site tag (gtag.js) - Google Analytics