`

前嗅教程:通过子栏目进入链接列表采集正文数据

 
阅读更多

第一步:新建任务

①点击左上角“加号”新建任务,如图1:



 

【图1】

②在弹窗里填写采集地址,任务名称,如图2:



 

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前页面子栏目下的列表房源的正文数据,子栏目房源列表是通过点击子栏目链接进入的,所以本次需要抽取子栏目链接,所以点击抽取链接,选择子栏目,如图3:



 

【图3】

④完成后模板抽取配置列表有两个模板,默认模板和子栏目。默认模板下自动生成一个链接抽取,名称为子栏目,此链接已与子栏目模板关联,如图4。



 

【图4】

第二步:通过地址过滤,得到所需的子栏目链接。

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到二手房子栏目链接。找到所需要的子栏目链接,右击复制链接,如图5所示。

 

 

【图5】

②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用过滤串“\E”得到二手房子栏目链接,如图6所示。

过滤串规则说明:\E 文件结束(忽略所有请求参数)



 

【图6】

③点击采集预览确认链接是否过滤完全,如图7

 

 

【图7】

第三步:填写子栏目模板示例地址并新建链接抽取

①填写示例地址,将模板一过滤得到的链接,作为子栏目的示例地址,即二手房子栏目列表页链接,如图8所示。



 

【图8】

②直接点击子栏目模板,点击上面“新建链接抽取”按钮,得到链接抽取,如图9。

 

 

【图9】

第四步:通过地址过滤,得到所需列表链接。

①右击模板预览找到房源列表链接,如图10所示。观察链接得出规律使用过滤串得到目标链接。



 

【图10】

②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用共用词“chushou”过滤得到目标链接,如图11。



 

【图11】

③点击采集预览确认链接是否过滤完全,如图12



 

【图12】

第五步:创建翻页链接抽取

方法一:创建任务,勾选链接抽取,直接选择链接列表和普通翻页,如图13。

 

 

【图13】

方法二:如果创建任务时,只勾选了链接列表,可以点击上一步,回到模板层,补选翻页链接抽取,点击下一步,创建翻页链接。

方法三:直接点击模板二,点击上面“新建链接抽取”按钮,得到链接抽取,并重名命为翻页,如图14。



 

【图14】

第六步:通过标题过滤,过滤翻页链接

①点击采集预览,我们可以发现,翻页链接即为名为上一页、下一页两条链接。对于翻页,只需要取到标题名为“下一页”的链接即可。

②这里应用标题过滤,过滤规则选择“包含”,过滤串填写“下一页”即可。如图15。



 

【图15】

③点击采集预览查看是否过滤成功,如图16.



 

【图16】

⑤关联“翻页”

情况一:创建模板或通过向导,创建的翻页链接抽取,会默认关联模板一,即当前页模板,如图17。

情况二:手动点击按钮创建翻页链接抽取,需要手动关联。



 

【图17】

第七步:创建新的模板,并新建数据抽取

①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图18。



 

【图18】

②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图19。



 

【图19】

关联模板

在软件中模板的关联关系,与网页中链接跳转的关系相同。

根据网页跳转规律,将“新建链接抽取”关联模板“正文数据模板”,如图20



 

【图20】

第八步:创建/选择表单

在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是之前建过的房天下的表单,如图21。

方法一:通过下拉菜单或表单ID选择已有表单

方法二:点击创建表单进入快速建表页面,新建表单



 

【图21】

方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图22。



 

【图22】

第九步:配置表单

根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、标题、网页链接,以及文本内容四个字段,表单如图23。



 

【图23】

第十步:字段取值

取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。

Text字段,如图24:



 

【图24】

第十一步:模板预览

① 标右键点击“数据抽取”,然后点击“模板预览”,如图25



 

【图25】

 

②预览结果如图26:



 

【图26】

第十二步:采集预览

① 击右上角采集预览,如图27。



 

【图27】

②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图28、图29。



 

【图28】



 

【图29】

  • 大小: 2.3 KB
  • 大小: 31.2 KB
  • 大小: 32.9 KB
  • 大小: 9.4 KB
  • 大小: 92.6 KB
  • 大小: 142 KB
  • 大小: 38.9 KB
  • 大小: 66 KB
  • 大小: 10.6 KB
  • 大小: 96.8 KB
  • 大小: 62 KB
  • 大小: 101.5 KB
  • 大小: 30.5 KB
  • 大小: 10.6 KB
  • 大小: 19 KB
  • 大小: 37.9 KB
  • 大小: 64.3 KB
  • 大小: 32.8 KB
  • 大小: 31.7 KB
  • 大小: 39.9 KB
  • 大小: 40.4 KB
  • 大小: 1.1 KB
  • 大小: 40.4 KB
  • 大小: 62.7 KB
  • 大小: 40.4 KB
  • 大小: 37.2 KB
  • 大小: 94.8 KB
  • 大小: 30 KB
  • 大小: 66.2 KB
  • 大小: 38.6 KB
  • 大小: 100.7 KB
  • 大小: 88.9 KB
分享到:
评论

相关推荐

    帝国CMS采集教程

    ### 帝国CMS采集教程知识点详述 #### 一、帝国CMS简介及发展历程 - **背景介绍**:帝国网站管理系统(EmpireCMS)自2002年发布以来,经历了多个版本的重大更新与功能升级,至今已发展至6.6正式版。作为一款广泛应用...

    帝国CMS取得顶级栏目名称和链接的函数获取顶级栏目名称链接

    总之,通过理解和运用帝国CMS的内置函数,我们可以轻松地获取和利用顶级栏目的名称和链接,为网站的前端展示和内容管理提供便利。同时,了解这些基础功能也有助于开发者更好地定制和扩展帝国CMS的功能。

    PHPYUN人才招聘系统火车采集器采集教程.pdf

    包含采集发布模块、PHPYUN 后台设置(老后台)、设置采集器、规则”表明本文档是一份关于如何使用特定的网络数据采集工具——火车采集器,针对PHPYUN人才招聘系统的数据采集教程。火车采集器是一种广泛使用的网络...

    siteserver采集规则教程.docx

    - 点击“测试”按钮检查采集规则是否有效,通过“获取链接”和“获取内容”确认列表信息和内容页信息的准确性。 5. **开始采集**: - 点击“开始采集”启动采集过程,调整参数以适应不同频道页地址,实现规则的...

    dede批量建子栏目

    DEDECMS是一款广泛使用的开源CMS,它允许用户通过后台管理界面轻松构建网站结构,包括创建栏目和子栏目。批量建栏目功能可以节省手动创建大量栏目的时间和精力,尤其适用于需要构建多级分类的大型网站。 描述中提到...

    WEB数据采集系统.doc

    该系统通过预设的规则,从互联网上抓取指定内容,如政策法规、市场动态、竞争对手信息等,将数据存储在数据库中或直接发布到目标栏目,实现信息的及时更新和数据量的提升,有助于提升搜索引擎收录和扩大信息传播范围...

    百度虚拟子栏目域名绑定

    虚拟子栏目是指在不创建物理目录的情况下,通过服务器配置或编程技术实现的类似于二级目录的展示效果。在百度的场景下,这可能意味着用户访问一个特定的二级域名时,实际上显示的是主域名下某个特定栏目的内容。 三...

    采集平台数据合并伴侣与平台中宏的作用.docx

    2. **增添栏目问题**:由于状态数据采集平台文件需要上报,其中的数据指标是固定的,因此采集平台中的数据栏目不可增添或减少。个性化的数据采集和处理可以在未来的web版本中实现。 3. **宏警告问题**:如果在进行...

    智动网页内容采集器 1.8

    软件介绍: 1、采用底层HTTP方式采集数据,快速稳定,可建多个任务多线程采同时采集多个网站数据 2、用户可以随意导入导出任务 ...4、可以直接输入网址采,或JavaScript脚本生成...6、可以无限深入N个栏目采集内容、采链接

    数据清洗与采集论文.docx

    ### 数据清洗与采集的核心知识点 #### 一、数据采集的重要性及其技术架构 ##### 1. 数据采集的意义 在大数据时代背景下,数据对于企业的经营决策、政府的政策制定和社会的动态分析具有不可替代的价值。因此,如何...

    左侧多级子栏目纯JavaScript

    "左侧多级子栏目纯JavaScript"是一种常见的网页设计模式,它主要用于实现左侧展示的多级导航菜单,使得用户能够方便地浏览和访问网站的深度内容。这个设计模式完全基于JavaScript实现,不依赖于其他服务器端技术或库...

    采集侠免费版

    这意味着所有用于采集的栏目都应该设置为“普通文章”类型,以便于数据的正确存储和展示。 - **关键词设置**:在进行数据采集时,需要输入关键词。这些关键词将作为采集规则的一部分,帮助软件识别和筛选出符合要求...

    ## WebSpider蓝蜘蛛网页采集

    1.2. 产品主要功能特点: 可以定制采集网址与栏目 可以定制网页数据结构化解析,精准,纯数据,无垃圾 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的...

Global site tag (gtag.js) - Google Analytics