`
deepfuture
  • 浏览: 4420426 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:80200
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:70588
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:103747
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:286937
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:15083
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:67981
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:32365
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:46128
社区版块
存档分类
最新评论

网页搜集效率

阅读更多

所谓效率,在这里就是如何利用尽量少的资源(计算机设备、网络带宽、时间)来完成预定的网页搜集量。在批量搜集的场合,我们通常考虑半个月左右能搜集到的网页,自然是越多越好。由于网页之间存在的独立性,利用许多台计算机同时来做这项工作是一个吸引人的想法。

第一,即使是用一台计算机来搜集网页,也应该注意并发性的开发和利用。由于从网上抓取一篇网页通常需要秒量级的等待网络通信时间
第二点是并不是设备越多越好。在用若干台计算机形成一个机群的安排下,它们共同分享出口网络带宽,随着设备量的增加,这个网络带宽(或者是周围的某个环境带宽)很快就成为瓶颈。经验表明实际上用不了超过10台计算机。分布式搜集的想法,即让多台设备分布在网络上的不同位置,从而克服上述带宽瓶颈问题,具体实现起来的麻烦会超过可能带来的好处(也许Google那样的针对多个国家用户的巨型搜索引擎需要用这种技术)
第三点发生在网络的另一端,即服务器方,它可能来不及提供所需的网页。这除了有些Web服务器所处的网络条件比较差,或者有太多其他人访问外,搜索引擎太频繁对它们发出网页请求也是一个重要原因。落实到技术上,就是要有一个访问策略或者URL规划,不要让搜集器启动的抓取进程都集中在少数几个网站上。
分享到:
评论

相关推荐

    高效率网页图片下载工具

    网页图片下载工具是一种高效获取网页中图片资源的实用软件,尤其对于需要批量收集网络图片的用户来说,这类工具显得尤为重要。本工具的核心功能是能够快速识别并下载网页上的所有图片,无论图片格式如何,它都能...

    收集的网页设计常用素材 第二期.rar

    总而言之,“收集的网页设计常用素材 第二期.rar”是一个宝贵的资源库,它提供了网页设计师所需的多样化小图标和其他设计素材,能够激发创作灵感,提升设计效率,帮助构建出更美观、易用的网页。无论是新手还是经验...

    搜索引擎——原理、技术与系统.

    - **利用并行处理技术**:通过多节点并行处理提高网页搜集效率。 - **性能测试和评价**:评估搜集系统的性能指标。 ##### 3.2 网页净化与消重 - **网页净化**:去除网页中的噪音信息,如广告、导航条等。 - **元...

    计算机软件-编程源码-网页收集器.zip

    8. **多线程/分布式**:为了提高效率,大型的网页收集器可能采用多线程或分布式爬虫架构,将任务分发到多个进程或机器上并行执行。 源码软件是指提供原始代码的软件,允许用户查看、修改和重新分发。对于“网页收集...

    [安全下载]智能网页邮件收集器

    在互联网营销、市场调研或者数据分析等领域,这种工具可以极大地提高工作效率,节省手动搜集邮件地址的时间。 首先,我们需要理解邮件收集器的工作原理。这类软件通常使用网络爬虫技术,通过遍历网页HTML代码,查找...

    Dreamweaver CS4网站制作从入门到精通视频教程下载第23章 运用模板和库提高网页制作效率.zip

    在本《Dreamweaver CS4网站制作从入门到精通视频教程》中,第23章主要探讨了如何运用模板和库来提升网页制作的效率。这一章节深入浅出地介绍了这两个强大的工具,帮助初学者和专业开发者更好地理解和利用Adobe ...

    网页资料收集网页资料收集

    网页资料收集是网络信息获取与整理的重要环节,它涉及到多种技术和工具,可以帮助用户高效地从互联网上抓取、存储和管理所需的信息。在现代信息化社会,网页资料收集对于数据分析、研究、新闻监控、市场调研等领域...

    游戏网页设计成品 学校班级网页制作模板 大学生静态HTML网页源码 dreamweaver网页作业 简单网页课程成品

    - **调试技巧**:利用浏览器的开发者工具进行页面布局调试、性能分析等,对于提高开发效率非常重要。 #### 五、扩展阅读与学习资源 - **官方文档**:HTML5、CSS3、JavaScript的官方文档是学习这些技术的最佳起点。...

    网页制作广告代码收集

    在这个"网页制作广告代码收集"的资源包中,我们主要关注的是如何在网页上实现吸引人的广告效果和交互功能。以下是对这些知识点的详细解释: 1. **广告代码**:广告代码通常指的是用于在网页上展示广告的HTML、...

    网页链接提取精灵 v1.1

    这款面向网络研究人员、SEO专家、内容管理者以及数据分析人员等专业人士的工具,专注于解决网页链接提取的繁琐工作,以智能化、自动化的方式快速收集网页中的链接信息,其重要性不言而喻。 网页链接提取精灵v1.1的...

    教你轻松查看网页源代码.pdf

    4. 提高网页制作效率:使用BlazingTool Instant Source可以快速了解网页开发的真谛,提高网页制作效率。 结论 BlazingTool Instant Source是一款功能强大且实用的网页源代码查看工具,旨在帮助网页制作爱好者轻松...

    网页快捕cyberarticle

    总的来说,"网页快捕CyberArticle"是一款集网页保存、管理、检索于一体的实用工具,尤其适合于需要频繁搜集网络资料的用户,如研究人员、学生、记者等。它通过简化信息收集过程,提升信息管理效率,使得网络信息的...

    收集多种网页在线客服QQ交谈

    本资源包“收集多种网页在线客服QQ交谈”显然旨在提供一系列用于构建或集成在线客服功能的工具,特别是与QQ交谈相关的解决方案。下面将详细探讨这些知识点。 1. **在线客服系统**:在线客服系统是通过网页实现企业...

    网页批量截图工具

    通过将网页链接输入到工具中,用户可以一次性截取所有指定网页的图片,无需手动操作,大大提高了工作效率。 批量截图的主要应用场景包括但不限于: 1. 网站设计审查:设计师或项目经理可能需要对比不同版本或多个...

    很好的网页截取工具网页截取器

    网页截取工具是一种高效实用的软件,主要用于抓取和保存网页内容,以便用户可以离线查看或进行其他处理。在互联网信息丰富的今天,这类工具极大地帮助我们...选择适合自己的网页截取器,可以让信息收集变得更加便捷。

    常用小工具收集(网页复制、电脑长截屏)

    标题中的“常用小工具收集(网页复制、电脑长截屏)”指的是一个集合了帮助用户进行网页复制和电脑屏幕长截图功能的小工具集合。这些工具通常是为了提高效率和方便日常计算机操作而设计的,尤其对于经常处理大量信息...

    Asp.net网页资料收集

    【Asp.net网页资料收集】是一份集合了多种Asp.net技术应用的资源包,涵盖了梅花控件的使用、CSS样式在打印中的应用、Sap.net与Excel数据交互以及C#字符串处理等多个方面。以下是对这些知识点的详细解读: 1. **梅花...

    深入js编程网页收集 超级经典

    "深入js编程网页收集 超级经典"这个主题涵盖了JavaScript在网页开发中的深入理解和实践,旨在帮助开发者提升技能,掌握JavaScript的核心概念和高级特性。 1. **基础概念**:JavaScript是一种解释型、基于原型的对象...

    收集的部分网页用小图片

    总的来说,这个"收集的部分网页用小图片"压缩包提供了一个方便的设计资源库,帮助设计师快速找到适合的元素,提升网页设计的质量和效率。无论是创建新的网站还是更新现有页面,这些小图片都能发挥其独特的作用,使得...

Global site tag (gtag.js) - Google Analytics