以百度搜索关键词(http://www.baidu.com)为例:
一. 网站结构
- 网站截图说明
使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据。
检索列表页
检索结果页
2. 采集结果截图
检索列表链接检索结果数据
二. 配置模板
- 新建任务
新建任务
点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:
新建采集任务
2. 配置关键词
配置关键词
① 内置浏览器显示搜索页面后,按照提示:ctrl+左键单击搜索框,点击右下角【完成】。点击右上角【保存】,保存任务配置。
保存关键词配置
② 关键词列表处,填写关键词,并点击保存。
填写关键词
3. 采集预览
看关键词检索的链接是否能够出来,如果没有出来,应该使用脚本采集;如果可以出来,则继续操作。
4. 过滤链接列表
①用定位过滤链接,过滤关键词检索出的列表链接。
定位过滤列表链接
② 采集预览,看是否过滤成功。
采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。
采集预览
5. 过滤翻页链接
①用定位过滤链接,过滤翻页链接。
定位过滤翻页链接
② 采集预览,看是否过滤成功
采集预览出现链接均为翻页的链接,过滤成功。
采集预览
6.关联模板
通过关联模板,可以设置该链接将要跳转的下一层级页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整地采集数据。
关联模板
如果没有创建模板02,可以自行创建模板。
新建模板
7. 填写示例地址
模板二是为了抽取正文数据,故勾选【抽取数据】,并填写示例数据。
①选取任意一条检索结果的网址,也就是模板一过滤得到的任意一条链接,作为模板二的示例地址。
填写示例地址
②点击【下一步】,自动生成数据抽取。
如果没有自动生成,则新建数据抽取。
新建数据抽取
8. 创建/选择表单
表单创建后可以重复选择使用,如果已有建好的表单,选择对应数据表单即可。如果没有,点击创建表单。
创建表单
9.配置表单
根据所需内容,配置表单字段,此处配置了包括网页标题、网页地址、全部文本三个字段。=>(字段各属性介绍)
方式一:快速建表。(点击【创建表单】出现弹窗。)
配置表单
方式二:自由建表。(在【数据建表】界面。)
字段取值
10.字段取值
①f_id:主键字段,自动取值。=>(能够自动取值的字段有哪些?)
②web_title:通过字段定位取值,按ctrl+单击标题,确认选取。
字段取值
③web_link:自动获取url地址。
web_link
11. 关联数据表
先选择对应表单,然后再创建关联数据表,如图所示。
创建关联数据表定义表名称勾选数据表
12. 模板预览
通过预览,可以了解配置是否能够正确地采集到所需数据。
方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。
点击任意一条链接,看看是否可以得到和网页对应的规整的数据。
方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。
模板预览预览结果
三.数据采集
1. 运行设置
运行设置处可以设置采集速度、采集策略、任务装载等。
运行设置
1. 选择采集任务
在【任务列表】中勾选需要采集的任务,可勾选多个任务,同时采集。
选择采集任务
3. 开始采集
点击【开始采集】,系统开始进行采集。剩余任务数为0时,系统自动停止采集。用户也可以自己暂停任务或停止任务(停止任务会释放任务,再次启动时重新装载任务)。
开始采集
4. 数据浏览
采集一段时间以后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。
数据浏览
5. 导出数据
点击【导出】按钮,选择导出文件格式后保存。
导出数据
导出数据
相关推荐
- 题录:检索结果通常以题录的形式展示,包含每条记录的基本信息,如标题、作者、出版年份、来源等,便于用户快速浏览和筛选。 6. **高级检索技巧**: - 使用布尔运算符(AND、OR、NOT)来组合检索词,扩大或缩小...
Meta分析简明教程:No.07 检索的运算符.pptx
4. 指定页码检索:根据用户输入的页码,选择对应的页面进行关键词搜索。 5. 高亮关键词:遍历搜索结果,使用`PDFJS.AnnotationLayerFactory.createAnnotation`创建注解对象,将匹配的关键词所在的位置标记出来。 6...
然后,遍历待检索的文本,对每个单词进行比较,看是否与关键词列表中的任一元素匹配。 VB中常用的字符串处理函数包括: 1. `InStr()`:这个函数返回两个字符串的首次相遇位置,如果找不到则返回0。例如,`InStr(...
### WPROBOT自动采集教程详解 #### 一、WPROBOT概述 WPROBOT是一款专为WordPress用户设计的强大插件,旨在实现博客内容的自动化采集与发布。它能够从多种来源(如Yahoo News、YouTube、Amazon等)自动抓取文章、...
2. **主题分散问题**:缺乏规范化的关键词可能导致检索结果中包含大量不相关的信息,影响查准率。 3. **信息质量参差不齐**:自动化的信息采集方式可能会引入大量低质量的内容,增加了用户筛选有效信息的工作量。 4....
Meta分析简明教程:No.04 检索主题词.pptx
"基于Lattice的Speech关键词检索"是布尔诺大学的一项研究工作,旨在通过语音lattices来实现对口语内容的有效搜索。这项技术的核心在于如何在复杂的语音数据中定位并提取出用户感兴趣的关键词。 **什么是Lattice?**...
关键词的选择直接影响检索结果的质量,因此理解和提炼关键词是提高检索效率的关键。 2. **布尔逻辑运算**:在信息检索中,布尔运算符“AND”、“OR”和“NOT”用于组合关键词,帮助用户精确或扩大搜索范围。例如,...
通过使用语义关系分析,本研究提出的方法能够更加精确地确定用户的检索需求,避免了对无关或关系较弱关键词的过度匹配,从而提升检索结果的有用性。 实验部分显示,应用了该技术的搜索引擎在多关键词检索任务中取得...
2. 检索策略:包括关键词检索、模糊检索、关联规则检索等,每种策略适用于不同的检索场景。 3. 检索效率:通过索引、缓存、并行处理等手段提高检索速度,满足实时性需求。 4. 检索效果评价:通过查准率、查全率、F值...
2. 题名或关键词字段检索:题名或关键词字段检索是指在数据库中检索特定的题名或关键词。在本文中,在维普数据库中使用了题名或关键词字段检索。 3. Boolean检索:Boolean检索是指使用布尔逻辑运算符来检索文献。在...
2. 检索结果不准确:数字资源检索的结果可能不准确,导致检索结果的不可靠性。 七、高层建筑构造设计中的剪力墙应用 剪力墙是高层建筑构造设计中的重要组成部分。剪力墙可以提高建筑的抗风、抗震能力,提高建筑的...
通过图表、仪表盘等形式展示检索结果和统计分析,可以帮助用户直观地了解涉密文件的分布、趋势等信息。可以使用Echarts、D3.js等开源库来创建交互式图表,提升用户体验。 边界测试是软件开发中的一个重要环节,尤其...
在执行关键词网址采集时,软件会发送请求到百度服务器,检索与输入关键词相关的网页链接。因此,如果你拥有高速的互联网连接(如电信百兆光纤),那么软件的运行速度和数据采集效率将会显著提高。这对于需要处理大量...
8. 检索结果评估:文献检索的结果需要评估和分析,以确定检索结果的可靠性和相关性。读者可以通过学习文献检索技巧来提高自己的评估能力。 9. 图书馆管理:图书馆的管理是指图书馆中图书和信息资源的管理,包括图书...