`

前嗅forespider教程:关键词采集【检索结果】

 
阅读更多

如何采集关键词检索结果,今天前嗅大数据就以古诗文网为例为大家演示,话不多说一起看看吧。

一. 网站内容

1. 网站截图说明

本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85

 

Step1:在官网输入关键词“鹅鹅鹅”,如图所示:

 

Step2:复制该页面的链接,作为本次采集地址。

 

一. 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

 

Step1:点击“采集配置”,点击【任务列表】中的“+”,新建采集任务。

Step2:在图示2位置中输入,对应“鹅鹅鹅”关键词下的网页地址。

Step3:勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。

 

需要采集正文数据,所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】,点击完成即可。

【新建采集任务】

 

2. 关键词配置

按图片数字所示,1-2-3完成新建任务的步骤

 

Step1:点击图1所示左侧点击“新建任务”。

Step2:按照图2所示,点击右下角的“关键词”。

Step3:按照图3所示,在关键词列表中输入“鹅鹅鹅”。

 

注:在操作过程中要记得随时点击“保存”,随时保存进度。

Step1:点击图1所示左侧点击“链接抽取:网页全部链接”。

Step2:按照图2所示,Ctrl+左键 点击搜索框,目的是建立搜索选区,方便关键词的采集。

Step3:按照图3所示,点击“确认选区”。

 

3. 数据建表

按图片数字所示,1-2-3完成数据建表的操作

如图示点击【数据建表】:

Step1:点击“采集配置”

Step2:选择“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“李白”

 

 

根据所需内容,配置表单字段,此处配置了包括主键、诗词标题、诗句、作者。表单建立如下:

【创建主键】

 

字段名称:id

采集内容 选择“主键”,此处选“网页主键”。

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

最后点击“确定”即可。

【创建字段1-标题】

 

字段名称:tittle

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:标题

 

 

【创建字段2-作者】

 

字段名称:author

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:作者

 

【创建字段3-诗句内容】

 

字段名称:content

采集内容 选择“选区内可见文本”

数据类型 选择“长数字”

备注可随意写,比如:诗句

最终数据表配置如下图即可:

 

4. 创建关联数据表

表单配置完毕后,需要进行数据关联,操作如下:

 

选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”。

创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。

 

 

注意:创建完成后,记得“勾选”

 

5. 数据建表 确认选区

 

Step1:点击图1所示左侧点击“数据抽取:李白”。

Step2:按照图2所示,在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。

 

Tittle选区选取:

Step1:点击左侧“tittle”

Step2:Ctrl+左键选择图示2位置的标题

Step3:点击图示3位置的“确认选区”即可完成

 

author选区选取:

Step1:点击左侧“author”

Step2:Ctrl+左键选择图示2位置的作者

Step3:点击图示3位置的“确认选区”即可完成

 

一. 关键词 检索结果预览

 

右键图示红框位置(页面左侧)的“默认模板:01”,选择“模板预览”,即可进行检索结果查询,如下图所示:

 

 

分享到:
评论

相关推荐

    大学教程:信息检索教学ppt

    - 用户交互设计:检索界面是用户与信息检索系统接触的第一步,通常包括输入框供用户输入检索词,以及选择检索字段(如标题、作者、关键词等)和时间范围的选项。 4. **检索方法**: - 输入检索词和选择检索字段...

    Meta分析简明教程:No.07 检索的运算符.pptx

    Meta分析简明教程:No.07 检索的运算符.pptx

    信息检索考试题目参考.doc

    4. 搜索引擎的高级检索:可以使用 site:edu 等命令来限定搜索结果在特定的域名中,例如 site:edu 可以限定搜索结果在教育机构的网站中。 5. 文献信息的形式特征:根据出版、发布与外在表现,文献资源可以归结为 ...

    百度关键词网址采集 v1.0

    在执行关键词网址采集时,软件会发送请求到百度服务器,检索与输入关键词相关的网页链接。因此,如果你拥有高速的互联网连接(如电信百兆光纤),那么软件的运行速度和数据采集效率将会显著提高。这对于需要处理大量...

    Meta分析简明教程:No.04 检索主题词.pptx

    Meta分析简明教程:No.04 检索主题词.pptx

    基于关键词的网络信息资源检索

    2. **主题分散问题**:缺乏规范化的关键词可能导致检索结果中包含大量不相关的信息,影响查准率。 3. **信息质量参差不齐**:自动化的信息采集方式可能会引入大量低质量的内容,增加了用户筛选有效信息的工作量。 4....

    数字资源检索及利用检索报告.doc

    2. 检索结果不准确:数字资源检索的结果可能不准确,导致检索结果的不可靠性。 七、高层建筑构造设计中的剪力墙应用 剪力墙是高层建筑构造设计中的重要组成部分。剪力墙可以提高建筑的抗风、抗震能力,提高建筑的...

    Meta分析简明教程:No.05 检索自由词.pptx

    Meta分析简明教程:No.05 检索自由词.pptx

    语料库检索速成教程:AntConc生鲜入门

    语料库检索速成教程:AntConc生鲜入门语料库检索速成教程:AntConc生鲜入门

    文档内容搜索 可以实现对其内容的判断以及关键词的检索

    5. **排序与返回结果**:根据相关性分数对文档进行排序,并返回排名靠前的结果给用户。 在实现这个功能时,还需要考虑一些优化策略: - **模糊匹配**:允许用户输入的部分关键词存在拼写错误,通过近似匹配算法(如...

    文献检索过程综述.doc

    2. 题名或关键词字段检索:题名或关键词字段检索是指在数据库中检索特定的题名或关键词。在本文中,在维普数据库中使用了题名或关键词字段检索。 3. Boolean检索:Boolean检索是指使用布尔逻辑运算符来检索文献。在...

    基于Java的本地txt文档关键词信息检索

    【Java本地txt文档关键词信息检索】是一个典型的计算机科学项目,主要涵盖了Java编程、MyEclipse集成开发环境的使用以及信息检索技术。这个项目的核心目标是为用户提供一个在本地txt文档中搜索关键词的工具,这对于...

    pdfjs_1.1.159添加在指定页码使用关键词检索

    4. 指定页码检索:根据用户输入的页码,选择对应的页面进行关键词搜索。 5. 高亮关键词:遍历搜索结果,使用`PDFJS.AnnotationLayerFactory.createAnnotation`创建注解对象,将匹配的关键词所在的位置标记出来。 6...

    vb关键词检索工具

    《VB关键词检索工具详解》 VB(Visual Basic)是一种由微软公司开发的编程环境,它以其易学易用的特点在编程领域占据了一席之地。在众多的应用场景中,关键词检索是一项基础但重要的功能,尤其在文本处理、数据分析...

    数据库管理 技术关键词: MongoDB 内容关键词: NoSQL文档数据库 用途: 用于存储和检索大量的分布式数据

    用途: 用于存储和检索大量的分布式数据 内容描述: 一个基于分布式文件存储的开源数据库系统。MongoDB是一个NoSQL数据库,使用文档来存储数据,非常适合处理大量的数据,以及在水平扩展方面具有优势。

Global site tag (gtag.js) - Google Analytics