nutch爬虫之UpdateSegmentsFromDb类的作用

nhy520

浏览: 963331 次
性别:
来自: 北京

最近访客更多访客>>

yunzhu

k0521klb

remote_silence

prog

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎学习

.net Blog

在nutch的爬虫运行过程中有这样的一个调用（在CrawlTool中）：

// update segments from db

　　UpdateSegmentsFromDb updater =

　　new UpdateSegmentsFromDb(nfs, db, segments, dir);

　　updater.run();

正如注释所说，这段代码的作用就是从webdb中的当前信息来对segments文件夹下的网页得分和anchor信息进行更新；之所以进行这个步骤是因为，在运行了上面代码的以上其他抓取步骤后，在segments文件夹的子文件夹中的fecher文件夹下存放的关于网页的得分和anchor信息不是最新的（这个是因为，爬虫运行完抓取后，每一个segments文件夹下的子文件夹是一层抓取产生的结果，然后我们利用上一层的抓取结果去更新webdb，然后再由webdb产生fetchlist，然后我们再由fetchlist中的内容去进行抓取，我们应该注意的一点是在每一次更新webdb时候，webdb中存放的网页的得分和指向该网页的连接信息可能会改变的，比如新爬回的网页有指向以前网页的连接时得分信息就会改变，但是在我们抓取时候每一次抓取的信息是分层的，存在segemnts文件夹下不同的子文件夹中，在各个不同层之间的由连接产生的最新得分信息只有且只有在webdb中才有体现，所以为了保证segment文件夹中的得分信息的最新，我们应该有这个步骤），我们就利用上面的代码来保证segments中信息的最新．

　　在UpdateSegmentsFromDb类中有三个内部类，分别是：

1. SegmentPage，它是用来存放关于url和segments文件夹下子文件的名称信息；

2. ByUrlComparator和BySegmentComparator，这两个类的作用是对存放好的以SegmentPage实例为key的文件进行排序；

3. Update，它用来存放的是新的网页得分和anchors信息；

　　这几个类的具体详细作用和代码中的部分细节剖析如下：

1. SegmentPage就是用来存放webdb中所有的url信息和url对应的segments文件夹下子文件夹的名称，它可以被按照ByUrlComparator和BySegmentComparator两个类中的排序方法分别按照url和segments文件夹下子文件夹的名称进行排序，以被以后更新信息时候用；

2. ByUrlComparator和BySegmentComparator都是用来进行排序，其中前者主要的目的是为了适应在webdb中存储的内容是有按照url排序的，这样就可以按照顺序有序的从webdb中取得相应的网页信息；而后者的主要目的是为了保证更新的文件夹按照一定的顺序，即更新完一个文件夹后更新另一个；

3. 我们可以发现，在这个代码中最重要的函数是类的成员方法close()，在这个里面包含了全部核心的处理部分

分享到：

Plugin中心（翻译） | Nutch插件加载分析

2009-05-16 21:46
浏览 1282
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

实时监控体系：基于Prometheus的API性能指标可视化方案.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

5个提升DeepSeekAPI生成质量的调参技巧，开发者必看！.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

ACM动态规划模板-区间修改线段树问题模板: ACM动态规划模板-区间修改线段树问题模板

深度解析C语言调试技巧：VSCode+GDB实战排错指南.pdf: # 踏入C语言的奇妙编程世界在编程的广阔宇宙中，C语言宛如一颗璀璨恒星，以其独特魅力与强大功能，始终占据着不可替代的地位。无论你是编程小白，还是有一定基础想进一步提升的开发者，C语言都值得深入探索。 C语言的高效性与可移植性令人瞩目。它能直接操控硬件，执行速度快，是系统软件、嵌入式开发的首选。同时，代码可在不同操作系统和硬件平台间轻松移植，极大节省开发成本。学习C语言，能让你深入理解计算机底层原理，培养逻辑思维和问题解决能力。掌握C语言后，再学习其他编程语言也会事半功倍。现在，让我们一起开启C语言学习之旅。这里有丰富教程、实用案例、详细代码解析，助你逐步掌握C语言核心知识和编程技巧。别再犹豫，加入我们，在C语言的海洋中尽情遨游，挖掘无限可能，为未来的编程之路打下坚实基础！

10个高效调用DeepSeekAPI的技巧：从请求优化到缓存策略.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

基于Python语言的PersonRelationKnowledgeGraph设计源码: 本项目为Python语言开发的PersonRelationKnowledgeGraph设计源码，总计包含49个文件，涵盖19个.pyc字节码文件、12个.py源代码文件、8个.txt文本文件、3个.xml配置文件、3个.png图片文件、2个.md标记文件、1个.iml项目配置文件、1个.cfg配置文件。该源码库旨在构建一个用于表示和查询人物关系的知识图谱系统。

成本优化指南：通过Token计算模型将API费用降低57%的秘诀.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

大华智能物联平台，的对接其他接口的API,可以获得视频拉流的flv/hls/rstp 的拉流地址，demo项目为springBoot项目，可以通过摄像头的视频通道，获取到实时拉流的uRl: rtsp实时预览接口URL:/evo-apigw/admin/API/MTS/Video/StartVideo HLS、FLV、RTMP实时预览接口方式 :接口URL/evo-apigw/admin/API/video/stream/realtime 参数名必选类型说明 data true string Json串 +channelId true string 视频通道编码 +streamType true string 码流类型：1=主码流, 2=辅码流，3=辅码流2 +type true string 协议类型：hls,hlss,flv,flvs,ws_flv,wss_flv,rtmp hls:http协议，m3u8格式，端口7086; hlss:https协议，m3u8格式，端口是7096; flv:http协议，flv格式,端口7886; flvs:https协议，flv格式,端口是7896; ws_flv:ws协议，flv格式,端口是7886; wss_flv:wss协议，flv格式,端口是7896; rtmp:rtmp协议,端口是1975;

Simulink永磁风机飞轮储能系统二次调频技术研究：频率特性分析与参数优化,Simulink永磁风机飞轮储能二次调频技术：系统频率特性详解及参数优化研究参考详实文献及两区域系统应用,simulink: Simulink永磁风机飞轮储能系统二次调频技术研究：频率特性分析与参数优化,Simulink永磁风机飞轮储能二次调频技术：系统频率特性详解及参数优化研究参考详实文献及两区域系统应用,simulink永磁风机飞轮储能二次调频，系统频率特性如下，可改变调频参数改善频率。参考文献详细，两区域系统二次调频。 ,核心关键词： 1. Simulink 2. 永磁风机 3. 飞轮储能 4. 二次调频 5. 系统频率特性 6. 调频参数 7. 改善频率 8. 参考文献 9. 两区域系统以上关键词用分号（;）分隔，结果为：Simulink;永磁风机;飞轮储能;二次调频;系统频率特性;调频参数;改善频率;参考文献;两区域系统。,基于Simulink的永磁风机与飞轮储能系统二次调频研究：频率特性及调频参数优化

MATLAB驱动的ASR防滑转模型：PID与对照控制算法对比，冰雪路面条件下滑移率与车速轮速对照展示,MATLAB驱动的ASR防滑转模型：PID与对照控制算法对比，冰雪路面条件下滑移率与车速轮速对照图: MATLAB驱动的ASR防滑转模型：PID与对照控制算法对比，冰雪路面条件下滑移率与车速轮速对照展示,MATLAB驱动的ASR防滑转模型：PID与对照控制算法对比，冰雪路面条件下滑移率与车速轮速对照图展示,MATLAB驱动防滑转模型ASR模型 ASR模型驱动防滑转模型 ?牵引力控制系统模型选择PID控制算法以及对照控制算法，共两种控制算法，可进行选择。选择冰路面以及雪路面，共两种路面条件，可进行选择。控制目标为滑移率0.2，出图显示车速以及轮速对照，出图显示车辆轮胎滑移率。模型简单，仅供参考。 ,MATLAB; ASR模型; 防滑转模型; 牵引力控制系统模型; PID控制算法; 对照控制算法; 冰路面; 雪路面; 控制目标; 滑移率; 车速; 轮速。,MATLAB驱动的ASR模型：PID与对照算法在冰雪路面的滑移率控制研究

芯片失效分析方法介绍 -深入解析芯片故障原因及预防措施.pptx: 芯片失效分析方法介绍 -深入解析芯片故障原因及预防措施.pptx

4131_127989170.html: 4131_127989170.html

PostgreSQL自动化部署与优化脚本：智能化安装、安全加固与监控集成: 内容概要：本文提供了一个全面的PostgreSQL自动化部署解决方案，涵盖智能环境适应、多平台支持、内存与性能优化以及安全性加强等重要方面。首先介绍了脚本的功能及其调用方法，随后详细阐述了操作系统和依赖软件包的准备过程、配置项的自动生成机制，还包括对实例的安全性和监控功能的强化措施。部署指南给出了具体的命令操作指导，便于新手理解和执行。最后强调了该工具对于不同硬件条件和服务需求的有效应对能力，特别是针对云计算环境下应用的支持特点。适合人群：对PostgreSQL集群运维有一定基础并渴望提高效率和安全性的数据库管理员及工程师。使用场景及目标：本脚本能够帮助企业在大规模部署时减少人工介入时间，确保系统的稳定性与高性能，适用于各类需要稳定可靠的数据库解决方案的企业或机构，特别是在大数据量和高并发事务处理场合。其他说明：文中还提及了一些高级功能如自动备份、流复制等设置步骤，使得该方案不仅可以快速上线而且能满足后续维护和发展阶段的要求。同时提到的技术性能数据也为用户评估其能否满足业务需求提供了直观参考。

房地产开发合同[示范文本].doc: 房地产开发合同[示范文本].doc

成本优化实战：DeepSeekAPI的Tokens计算与计费策略拆解.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

安全必读：DeepSeek接口调用中的数据加密与合规实践.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

工程技术承包合同[示范文本].doc: 工程技术承包合同[示范文本].doc

蓝桥杯开发赛作品源码【基于C语言】: 蓝桥杯开发赛【作品源码】

深度解析DeepSeek语义分析API：实现情感分析与意图识别的进阶技巧.pdf: 在日常的工作和学习中，你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼？DeepSeek 或许就是你一直在寻找的解决方案！它以其高效、智能的特点，在各个行业都展现出了巨大的应用价值。然而，想要充分发挥 DeepSeek 的优势，掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发，为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习，你将能够轻松地运用 DeepSeek 解决实际问题，提升工作效率和质量，让自己在职场和学术领域脱颖而出。现在，就让我们一起开启这场实用又高效的学习之旅吧！

CVPR2023复现技术：多数据集验证下的YOLOX、YOLOv5及YOLOV7检测涨点助力器,CVPR2023复现实验助力检测涨点，验证了YOLOX、YOLOv5及YOLOV7在多个数据集上的有效性: CVPR2023复现技术：多数据集验证下的YOLOX、YOLOv5及YOLOV7检测涨点助力器,CVPR2023复现实验助力检测涨点，验证了YOLOX、YOLOv5及YOLOV7在多个数据集上的有效性,cvpr2023复现，助力检测涨点，YOLOX YOLOv5 YOLOV7均有效，再多个数据集验证有效 ,cvpr2023复现; 助力检测涨点; YOLOX有效; YOLOv5有效; YOLOV7有效; 多数据集验证有效,CVPR2023复现成功：多模型检测涨点验证有效

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论