前嗅ForeSpider数据采集教程：采集【中国证券网】的正文数据 - - ITeye博客

`

qianxiu

浏览: 47846 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider数据采集教程：采集【中国证券网】的正文数据

博客分类：

阅读更多

一. 网站结构：

网站截图说明

2. 采集结果截图

检索列表链接检索结果数据

二、配置模板：

第一步：新建任务

点击加号，在弹窗里填写采集地址，任务名称，如图

新建任务

点击下一步，选择进行数据抽取还是链接抽取，本次采集要闻列表页新闻的正文数据，正文数据是通过点击列表链接进入的，所以本次需要抽取列表链接，所以点击抽取链接，如图：

新建采集任务

第二步：通过地址过滤，得到所需的分区链接。

点击采集预览，在采集预览中有于目标链接相似的其他链接，可通过地址过滤得到分区链接。找到所需要的分区链接，区别于其他链接“http://news.cnstock.com/news/sns_yw”，右击复制链接:

勾选地址过滤，过滤规则选择包含，将复制的目标地址粘入，得到要闻分区链接，点击保存，如图：

点击下一步，接着点击采集预览确认链接是否过滤完全，如图

第三步：填写模板二示例地址并新建数据抽取

将模板一过滤得到分区链接，作为模板二的示例地址，如图。

创建列表链接抽取、翻页链接抽取。直接点击模板二，点击上面“新建链接抽取”按钮，得到链接抽取，并重命名，如图

进行列表链接抽取，按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域，点击“确认选区”按钮，如图

点击采集预览确认链接是否过滤完全，如图

第四步：通过标题过滤，过滤翻页链接

点击采集预览，在采集预览中有于目标链接相似的其他链接，可通过地址过滤得到列表链接。通过观察发现目标链接都包含“http://news.cnstock.com/news,yw-”+数字，使用过滤串\d得到所需要的链接。右击复制链接，如图过滤串规则说明：\d 表示一串（个）数字。

勾选地址过滤，过滤规则选择包含，地址填入

点击模板预览，选择翻页链接抽取，确认链接是否过滤完全，如图

第五步：创建新的模板，并新建数据抽取

在模板配置，点击“新建模板”按钮，得到新建模板，重命名为数据抽取模板

将模板二新建链接抽取过滤得到的任意一条链接，作为模板三的示例地址。

得到数据抽取

关联模板

在软件中模板的关联关系，与网页中链接跳转的关系相同。

根据网页跳转规律，将“列表链接抽取”关联模板“新建模板：03”，如图

第六步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三。

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单。

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的配置表单。

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、标题、发布时间、来源、作者、正文内容、采集地址共7个字段，右上角保存，表单如图：

在数据抽取链接处关联表单，如图

第七步：字段取值

取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。btmc字段，如图

第八步：模板预览

①鼠标右键点击“数据抽取”，然后点击“模板预览”，如图

预览结果如图

第九步：采集预览

点击右上角采集预览,如图

双任意一条链接，看看是否可以得到和网页对应的规整的数据，如下图

三. 数据采集

第一步：运行设置

运行设置处可以设置采集速度、采集策略、任务装载等

第二步：选择采集任务

在【任务列表】中勾选需要采集的任务，可勾选多个任务，同时采集。

第三步：开始采集

点击【开始采集】，系统开始进行采集。剩余任务数为0时，系统自动停止采集。用户也可以自己暂停任务或停止任务（停止任务会释放任务，再次启动时重新装载任务）。

第四步：数据浏览

采集一段时间以后，点击【数据浏览】，在数据列表中选中对应的数据表，即可浏览采集到的数据，点击【刷新】按钮可以同步显示数据。

第五步：导出数据

点击【导出】按钮，选择导出文件格式后保存。

保存数据

分享到：

如何在ForeSpider数据采集器中设置代理IP | 透过大数据了解化妆品-BB霜行业概况

2020-01-15 14:10
浏览 512
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

forespider数据采集软件: **前嗅forespider数据采集软件详解** 在信息化时代，数据的价值不言而喻，而高效的数据采集成为企业和个人获取信息的关键。前嗅forespider数据采集软件正是为解决这一需求而生，它是一款专为非专业编程人员设计的...

使用ForeSpider爬虫软件批量采集企业信息公示系统.zip: ForeSpider爬虫工具软件使用教程使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

weibo_spider_spider_爬取微博_爬取微博评论_微博_weibospider_: 在IT行业中，网络爬虫（Spider）是一种自动化程序，用于从互联网上抓取大量数据，以便分析、存储或再利用。在这个特殊的项目中，“weibo_spider_spider”指的是一个针对微博平台定制的爬虫程序，它能有效地爬取微博...

forespider: 网上的便捷爬虫软件，可直接在许多网站上进行数据爬取

国开-大数据技术导论-实验3 网页数据获取.doc: 实验包含了几个具体步骤，首先是爬虫软件前嗅ForeSpider的安装，然后是频道的选择，接下来是网页数据的采集。这些步骤指导学生如何准备实验环境，以及如何操作爬虫软件，逐步深入到数据获取的实践中。知识点四：...

网络爬虫之Spider: 项目中可能包含了数据存储的相关逻辑，如将抓取的网页内容写入文件或与数据库进行交互。 **7. 异常处理** 网络爬虫在运行过程中可能会遇到各种问题，如网络连接错误、页面结构变化等，因此，异常处理机制是必不可少...

Global site tag (gtag.js) - Google Analytics