第一步:新建任务
①点击左上角“加号”新建任务,如图1:
【图1】
②在弹窗里填写采集地址,任务名称,如图2:
【图2】
③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前页面子栏目下的列表房源的正文数据,子栏目房源列表是通过点击子栏目链接进入的,所以本次需要抽取子栏目链接,所以点击抽取链接,选择子栏目,如图3:
【图3】
④完成后模板抽取配置列表有两个模板,默认模板和子栏目。默认模板下自动生成一个链接抽取,名称为子栏目,此链接已与子栏目模板关联,如图4。
【图4】
第二步:通过地址过滤,得到所需的子栏目链接。
①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到二手房子栏目链接。找到所需要的子栏目链接,右击复制链接,如图5所示。
【图5】
②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用过滤串“\E”得到二手房子栏目链接,如图6所示。
过滤串规则说明:\E 文件结束(忽略所有请求参数)
【图6】
③点击采集预览确认链接是否过滤完全,如图7
【图7】
第三步:填写子栏目模板示例地址并新建链接抽取
①填写示例地址,将模板一过滤得到的链接,作为子栏目的示例地址,即二手房子栏目列表页链接,如图8所示。
【图8】
②直接点击子栏目模板,点击上面“新建链接抽取”按钮,得到链接抽取,如图9。
【图9】
第四步:通过地址过滤,得到所需列表链接。
①右击模板预览找到房源列表链接,如图10所示。观察链接得出规律使用过滤串得到目标链接。
【图10】
②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用共用词“chushou”过滤得到目标链接,如图11。
【图11】
③点击采集预览确认链接是否过滤完全,如图12
【图12】
第五步:创建翻页链接抽取
方法一:创建任务,勾选链接抽取,直接选择链接列表和普通翻页,如图13。
【图13】
方法二:如果创建任务时,只勾选了链接列表,可以点击上一步,回到模板层,补选翻页链接抽取,点击下一步,创建翻页链接。
方法三:直接点击模板二,点击上面“新建链接抽取”按钮,得到链接抽取,并重名命为翻页,如图14。
【图14】
第六步:通过标题过滤,过滤翻页链接
①点击采集预览,我们可以发现,翻页链接即为名为上一页、下一页两条链接。对于翻页,只需要取到标题名为“下一页”的链接即可。
②这里应用标题过滤,过滤规则选择“包含”,过滤串填写“下一页”即可。如图15。
【图15】
③点击采集预览查看是否过滤成功,如图16.
【图16】
⑤关联“翻页”
情况一:创建模板或通过向导,创建的翻页链接抽取,会默认关联模板一,即当前页模板,如图17。
情况二:手动点击按钮创建翻页链接抽取,需要手动关联。
【图17】
第七步:创建新的模板,并新建数据抽取
①在模板配置,点击“新建模板”按钮,得到新建模板,重命名为正文数据模板,如图18。
【图18】
②新建数据抽取。直接点击模板二,点击上面“新建数据抽取”按钮,得到数据抽取,如图19。
【图19】
③关联模板
在软件中模板的关联关系,与网页中链接跳转的关系相同。
根据网页跳转规律,将“新建链接抽取”关联模板“正文数据模板”,如图20
【图20】
第八步:创建/选择表单
在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关联数据表单。此处使用的是之前建过的房天下的表单,如图21。
方法一:通过下拉菜单或表单ID选择已有表单
方法二:点击创建表单进入快速建表页面,新建表单
【图21】
方法三:点击“采集配置”-“数据建表”,点击采“采集表单”后面的如图22。
【图22】
第九步:配置表单
根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、标题、网页链接,以及文本内容四个字段,表单如图23。
【图23】
第十步:字段取值
取值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。
Text字段,如图24:
【图24】
第十一步:模板预览
① 标右键点击“数据抽取”,然后点击“模板预览”,如图25
【图25】
②预览结果如图26:
【图26】
第十二步:采集预览
① 击右上角采集预览,如图27。
【图27】
②双击任意一条链接,看看是否可以得到和网页对应的规整的数据,如图28、图29。
【图28】
【图29】
相关推荐
### 帝国CMS采集教程知识点详述 #### 一、帝国CMS简介及发展历程 - **背景介绍**:帝国网站管理系统(EmpireCMS)自2002年发布以来,经历了多个版本的重大更新与功能升级,至今已发展至6.6正式版。作为一款广泛应用...
总之,通过理解和运用帝国CMS的内置函数,我们可以轻松地获取和利用顶级栏目的名称和链接,为网站的前端展示和内容管理提供便利。同时,了解这些基础功能也有助于开发者更好地定制和扩展帝国CMS的功能。
包含采集发布模块、PHPYUN 后台设置(老后台)、设置采集器、规则”表明本文档是一份关于如何使用特定的网络数据采集工具——火车采集器,针对PHPYUN人才招聘系统的数据采集教程。火车采集器是一种广泛使用的网络...
- 点击“测试”按钮检查采集规则是否有效,通过“获取链接”和“获取内容”确认列表信息和内容页信息的准确性。 5. **开始采集**: - 点击“开始采集”启动采集过程,调整参数以适应不同频道页地址,实现规则的...
DEDECMS是一款广泛使用的开源CMS,它允许用户通过后台管理界面轻松构建网站结构,包括创建栏目和子栏目。批量建栏目功能可以节省手动创建大量栏目的时间和精力,尤其适用于需要构建多级分类的大型网站。 描述中提到...
该系统通过预设的规则,从互联网上抓取指定内容,如政策法规、市场动态、竞争对手信息等,将数据存储在数据库中或直接发布到目标栏目,实现信息的及时更新和数据量的提升,有助于提升搜索引擎收录和扩大信息传播范围...
虚拟子栏目是指在不创建物理目录的情况下,通过服务器配置或编程技术实现的类似于二级目录的展示效果。在百度的场景下,这可能意味着用户访问一个特定的二级域名时,实际上显示的是主域名下某个特定栏目的内容。 三...
2. **增添栏目问题**:由于状态数据采集平台文件需要上报,其中的数据指标是固定的,因此采集平台中的数据栏目不可增添或减少。个性化的数据采集和处理可以在未来的web版本中实现。 3. **宏警告问题**:如果在进行...
软件介绍: 1、采用底层HTTP方式采集数据,快速稳定,可建多个任务多线程采同时采集多个网站数据 2、用户可以随意导入导出任务 ...4、可以直接输入网址采,或JavaScript脚本生成...6、可以无限深入N个栏目采集内容、采链接
### 数据清洗与采集的核心知识点 #### 一、数据采集的重要性及其技术架构 ##### 1. 数据采集的意义 在大数据时代背景下,数据对于企业的经营决策、政府的政策制定和社会的动态分析具有不可替代的价值。因此,如何...
"左侧多级子栏目纯JavaScript"是一种常见的网页设计模式,它主要用于实现左侧展示的多级导航菜单,使得用户能够方便地浏览和访问网站的深度内容。这个设计模式完全基于JavaScript实现,不依赖于其他服务器端技术或库...
这意味着所有用于采集的栏目都应该设置为“普通文章”类型,以便于数据的正确存储和展示。 - **关键词设置**:在进行数据采集时,需要输入关键词。这些关键词将作为采集规则的一部分,帮助软件识别和筛选出符合要求...
1.2. 产品主要功能特点: 可以定制采集网址与栏目 可以定制网页数据结构化解析,精准,纯数据,无垃圾 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的...