一. 网站内容
1. 网站截图说明
本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:
Step1:在官网输入关键词“鹅鹅鹅”,如图所示:
Step1:复制该页面的链接,作为本次采集地址。
二 . 操作方法
1. 新建任务
按图片数字所示,1-2-3完成新建任务的步骤
Step1:点击“采集配置”,点击【任务列表】中的“+”,新建采集任务。
Step2:在图示2位置中输入,对应“鹅鹅鹅”关键词下的网页地址。
Step3:勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。
需要采集正文数据,所以此处需要勾选【抽取链接】和“网页内所有链接”、【抽取数据】,点击完成即可。
2. 关键词配置
按图片数字所示,1-2-3完成新建任务的步骤
Step1:点击图1所示左侧点击“新建任务”。
Step2:按照图2所示,点击右下角的“关键词”。
Step3:按照图3所示,在关键词列表中输入“鹅鹅鹅”。
注:在操作过程中要记得随时点击“保存”,随时保存进度。
Step1:点击图1所示左侧点击“链接抽取:网页全部链接”。
Step2:按照图2所示,Ctrl+左键 点击搜索框,目的是建立搜索选区,方便关键词的采集。
Step3:按照图3所示,点击“确认选区”。
3. 数据建表
按图片数字所示,1-2-3完成数据建表的操作
如图示点击【数据建表】:
Step1:点击“采集配置”
Step2:选择“数据建表”
Step2:点击“+”,新建表单并自定义名称,这里取“李白”
根据所需内容,配置表单字段,此处配置了包括主键、诗词标题、诗句、作者。表单建立如下:
创建主键
字段名称:id
采集内容 选择“主键”,此处选“网页主键”。
数据类型 选择“长数字”
字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”
最后点击“确定”即可。
创建字段1-标题
字段名称:tittle
采集内容 选择“选区内可见文本”
数据类型 选择“长数字”
备注可随意写,比如:标题
创建字段2-作者
字段名称:author
采集内容 选择“选区内可见文本”
数据类型 选择“长数字”
备注可随意写,比如:作者
创建字段3-诗句内容
字段名称:content
采集内容 选择“选区内可见文本”
数据类型 选择“长数字”
备注可随意写,比如:诗句
最终数据表配置如下图即可:
4. 创建关联数据表
表单配置完毕后,需要进行数据关联,操作如下:
选择刚才建立的“人上人数据”,点击【创建】按钮,即可生成对应的“关联数据表”。
创建表名称可随意填写,需注意 仅可使用“全英文”,最后点击 确定 即可完成。
注意:创建完成后,记得“勾选”
5.数据建表 确认选区
Step1:点击图1所示左侧点击“数据抽取:李白”。
Step2:按照图2所示,在“数据表单”下滑列表中选择刚才创建的表单“李白”进行匹配。
Tittle选区选取:
Step1:点击左侧“tittle”
Step2:Ctrl+左键选择图示2位置的标题
Step3:点击图示3位置的“确认选区”即可完成
author选区选取:
Step1:点击左侧“author”
Step2:Ctrl+左键选择图示2位置的作者
Step3:点击图示3位置的“确认选区”即可完成
content选区选取:
Step1:点击左侧“content”
Step2:Ctrl+左键选择图示2位置的内容
Step2:点击图示3位置的“确认选区”即可完成
以上步骤完成后,点击右上角的“保存”,即可完成数据建表的步骤。
三. 关键词 检索结果预览
右键图示红框位置(页面左侧)的“默认模板:01”,选择“模板预览”,即可进行检索结果查询,如下图所示:
相关推荐
文献检索的步骤包括选择数据库、选择检索关键词、选择检索方法、执行检索、查看检索结果等。 8.2.5 常用数据库使用 常用的数据库包括中文数据库和英文数据库。中文数据库包括CNKI、VIP、万方等,英文数据库包括EI...
2. 题名或关键词字段检索:题名或关键词字段检索是指在数据库中检索特定的题名或关键词。在本文中,在维普数据库中使用了题名或关键词字段检索。 3. Boolean检索:Boolean检索是指使用布尔逻辑运算符来检索文献。在...
在执行关键词网址采集时,软件会发送请求到百度服务器,检索与输入关键词相关的网页链接。因此,如果你拥有高速的互联网连接(如电信百兆光纤),那么软件的运行速度和数据采集效率将会显著提高。这对于需要处理大量...
2. **主题分散问题**:缺乏规范化的关键词可能导致检索结果中包含大量不相关的信息,影响查准率。 3. **信息质量参差不齐**:自动化的信息采集方式可能会引入大量低质量的内容,增加了用户筛选有效信息的工作量。 4....
用途: 用于存储和检索大量的分布式数据 内容描述: 一个基于分布式文件存储的开源数据库系统。MongoDB是一个NoSQL数据库,使用文档来存储数据,非常适合处理大量的数据,以及在水平扩展方面具有优势。
分布式环境下多关键词并行密文检索方案是计算机安全领域中的一个重要研究方向,它旨在解决在保证数据安全性的前提下如何高效检索加密数据的问题。可搜索加密(Searchable Encryption)是一种允许用户对密文执行...
《信息检索:第三章 信息检索实践基础》的讲解涵盖了信息检索的核心环节,从信息的搜集与选择到信息的著录加工,再到信息的标引加工、结构编排,以及检索策略、效果评价和科技查新工作。这些内容是理解和实践信息...
速卖通关键词采集是指通过特定的工具或方法收集与特定关键词相关的商品数量信息。这对于电商卖家来说,有助于他们了解哪些关键词在速卖通平台上的竞争激烈程度,以及相关商品的市场占有率。通过这样的数据,卖家可以...
* 布尔逻辑检索:使用AND、OR、NOT等逻辑运算符来组合检索条件。 * 字段检索:对特定字段进行检索。 * 通配符检索:使用通配符来检索文献信息。 精确检索 * 使用引号或括号来标引检索条件。 * 禁用词语:使用禁用...
③ 对于返回的结果文本,同时显示各检索关键词在结果文本中的出现频度信息; ④ 系统内支持返回结果文本的查看; ⑤ 支持文本库的动态装载和处理; ⑥ 支持停用词的管理和维护,停用词是指在没有检索价值的单词,...
- **内容过滤**:通过关键词过滤和排除某些内容,确保采集的内容符合博客的主题和质量要求。 - **伪原创策略**:利用WPROBOT结合其他伪原创插件,对采集来的内容进行重新编辑和组织,提高内容的独特性和吸引力。 - *...
4. 搜索引擎的高级检索:可以使用 site:edu 等命令来限定搜索结果在特定的域名中,例如 site:edu 可以限定搜索结果在教育机构的网站中。 5. 文献信息的形式特征:根据出版、发布与外在表现,文献资源可以归结为 ...
词组检索是另一种重要的检索方式,它通过将关键词置于引号内,确保检索结果保持原始词组的完整性,以提高检索的精确性。例如,"动物保护"将只匹配包含这个词组的文档,而不包含其变体。 邻近检索,或称为位置算符...
- 通过图书馆的OPAC系统,输入关键词“MATLAB 神经网络”进行检索。 - OPAC系统能提供图书馆内藏书的信息,包括书名、作者、出版社、ISBN号码等,以及是否可借阅的状态。 3. **资源总结**: - 比较两种方法获取...
1. 统一管理新闻线索:畅享系统可以统一管理各种来源的新闻线索,支持通讯员、线人通过互联网、QQ等方式传递线索,并利用智能检索技术自动发掘互联网线索。 2. 移动工作:畅享系统支持3G无线传输,记者可以通过手机...
这篇“大学教程:信息检索教学ppt”显然是一份珍贵的教学资源,旨在帮助学生和专业人士理解并掌握这一关键技能。以下是该教程可能涵盖的一些主要知识点: 1. **信息检索的基本概念**: - 定义:信息检索是通过系统...
《VB关键词检索工具详解》 VB(Visual Basic)是一种由微软公司开发的编程环境,它以其易学易用的特点在编程领域占据了一席之地。在众多的应用场景中,关键词检索是一项基础但重要的功能,尤其在文本处理、数据分析...
【信息检索】是获取、处理和利用信息的关键过程,它涉及多个方面,包括理解用户需求、选择合适的检索工具、构建有效的检索策略以及分析检索结果。本章主要探讨了信息检索的概念、类型及其特点。 信息检索从广义上来...