前嗅ForeSpider教程：采集黄页88 -

qianxiu

浏览: 46412 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

前嗅ForeSpider教程：采集黄页88

博客分类：

教程

今天小编为大家带来的教程是：采集黄页88，同时也适用于采集其他的企业信息网站，具体操作流程如下：

第一步：新建任务

①点击左上角“加号”新建任务，如图1：

②在弹窗里填写采集地址，任务名称，如图2：

③点击下一步，选择进行数据抽取还是链接抽取，本次采集当前列表页联系方式链接，正文数据是通过点击列表链接进入的，所以本次需要抽取列表链接，所以点击抽取链接，翻页选择普通翻页，如图3：

④完成后模板抽取配置列表有两个模板，默认模板和链接列表。默认模板下自动生成两个链接抽取，一个为链接列表抽取，已与模板“链接列表”关联，一个为普通翻页链接，此链接已与默认模板自身关联，如图4。

第二步：通过地址过滤，得到所需的联系方式链接。

①点击采集预览，在采集预览中有于目标链接相似的其他链接，可通过地址过滤得到联系方式链接。找到所需要的链接，右击复制链接，如图5所示。

②勾选地址过滤，过滤规则选择包含，将复制的目标地址粘入，使用公共部分“company_contact.html”进行地址过滤，得到所需链接，如图6所示。

③点击采集预览确认链接是否过滤完全，如图7

第三步：过滤翻页链接

①在采集预览中选择普通翻页，在采集预览中有于目标链接相似的其他链接，可通过地址过滤得到列表链接。找到所需要的列表链接，观察得出所需要的目标链接都包含“pn+数字”。使用过滤串“\d”，右击复制链接，如图8所示。过滤串规则说明：\d 表示一串（个）数字

②勾选地址过滤，过滤规则选择包含，填入“pn\d”，得到列表链接，如图9所示。

③右击模板一，选择模板预览，采集预览确认链接是否过滤完全，如图10：

第四步：填写模板二示例地址并新建数据抽取

①将模板一过滤得到的任意一条链接，作为模板二的示例地址。如：http://b2b.huangye88.com/qiye2867243/company_contact.html，见图11：

②新建数据抽取

方法一：通过点击“下一步”后勾选抽取数据，再次点击“下一步”得到数据抽取。

方法二：直接点击模板二，点击上面“新建数据抽取”按钮，得到数据抽取，如图12

第五步：创建/选择表单

在ForeSpider爬虫中，表单是可以复用的，所以可以在数据表单出直接选择之前建过的表单，也可以通过表单ID来进行查找并关联数据表单。此处使用的方法三。

方法一：通过下拉菜单或表单ID选择已有表单

方法二：点击创建表单进入快速建表页面，新建表单。

方法三：点击“采集配置”-“数据建表”，点击采“采集表单”后面的如图13：

第六步：配置表单

根据所需内容，配置表单字段（即表头），此处配置了网页主键、联系人、联系方式、公司名称、公司网址链接共5个字段，表单如图14：

第七步：字段取值

①在数据抽取部分导入表单：黄页

②Per_name字段。如图16所示，绿框选中联系人，确认选区，然后选择脚本处理，取值“：”之后的姓名。

选区取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

代码：return VALUE.Right("：");

代码如图17所示。

③Com_name 字段。同per_name字段，绿框选中公司名称，确认选区，然后选择脚本处理，取值“：”之后的名称。

选区取值方法：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。

代码：return VALUE.Right("：");

④Tel 字段。如图18所示，因为在模板预览中链接标题就是手机号，所以采用了高级取值---脚本取值。

直接在脚本处写上“return URL.title;” 即链接标题名为手机号，如图19所示。代码：return URL.title;

⑤Link字段。采集内容选择网页信息>网页地址，保存即可，如图20所示。

第八步：模板预览

①鼠标右键点击“数据抽取”，然后点击“模板预览”，如图21。

②预览结果，如图22所示。

第九步：采集预览

①点击右上角采集预览,如图23：

②双击任意一条链接，看看是否可以得到和网页对应的规整的数据，如图24所示。

分享到：

前嗅ForeSpider教程：采集美团网 | 前嗅ForeSpider教程：采集中国证券网

2019-01-28 10:11
浏览 404
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider教程：采集黄页88

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider教程：采集黄页88

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

前嗅ForeSpider脚本教程-链接过滤脚本

前嗅ForeSpider脚本教程-链接抽取：自定义链接写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在POST请求里写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在源码的js变量里写脚本

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

最近访客更多访客>>