抓取网址的数量上限
您的许可指定了您可以抓取的网址的上限。 不过,如果您的网址尚未达到许可所规定的上限,您可以为想要抓取的网址指定较小的数量上限。 如果您输入的数字小于许可指定的总页数上限,您可以提高系统性能。 在您点击保存时间表和主机负载按钮后,系统最多比您指定数量多抓取约 10% 的内容。 系统抓取的网址要稍微多一些,这样在清除重复后,页数与您指定的上限将非常接近。
请注意: 如果您将此框保留为空,系统将不断抓取网址,直至达到您的许可的上限。
网络服务器主机负载
网络服务器主机负载值指定了在各个网络服务器上为进行抓取建立的并行连接的个数上限。 我们建议您从 4 个连接开始,只有当确信您的网络服务器能够处理您指定的负载时再逐渐提高该值。 如果您无法确定网络服务器的负载能力,请与您所抓取网站的网站管理员联系。
对于文件服务器和对于代理服务器后面的网络服务器,设备处理主机负载的方式有所不同。 在这些情况下,设备会将多个服务器视为单一主机,并将一个主机负载设置应用于所有服务器。 例如,如果在有 10 个文件服务器的环境中将主机负载设置为 4,那么一次最多只能连接四个服务器,按抓取队列指定的顺序对全部 10 个服务器进行抓取。
警告: 一些服务器可能无法处理高负载。
如果抓取工具认定服务器不能处理定义的主机负载,它将降低抓取速率,直到达到可接受的响应时间为止。
请注意: 并行连接的数量偶尔可能低于您在此指定的值,这取决于您的系统行为。 系统会尽力保持这个数量。
网络服务器主机负载例外
网络服务器主机负载例外使您通过为指定的网络服务器分配不同的主机负载上限来指定网络服务器主机负载例外。 在您没有指定主机负载例外的时间段中,将应用默认的网络服务器主机负载。例如,您可能有三个网络服务器,它们可以在夜间处理更多的抓取负载。 对于这三台网络服务器,从晚上 12 点到早晨 6 点设置的默认主机负载为 4,而您可以指定一个比 4 高的负载。
要尽可能减少服务器在日间的主机负载,可以对从上午 9:00 至下午 5:00 这一时间段设置例外值 0,这样服务器将不能处理额外负载。
您输入的主机名应该是完全限定的主机名,可以为 ASCII 或 IP 地址。
当使用代理抓取网站时,将使用相同的主机负载来抓取代理后面的所有网站。 所用的主机负载将是针对使用代理抓取的所有网址格式指定的主机负载上限。 您应该执行以下操作中的一项操作:
- 对您想使用代理来抓取的网站不指定主机负载,这种情况下会使用主机负载上限
- 指定足够小的主机负载以不影响任何代理站点的性能
以下规则也适用于本页上的条目:
- 每行只允许有一个主机名条目
- 主机负载为零 (0) 并不会完全停止抓取,而只是将与主机的接触次数减少为每小时大约三次
- 您可以将负载系数指定为小数值。 例如,0.5、1 或 2.0
值 2 表示,平均每个主机只使用两个并行连接。 值 .25 表示,平均只有 25% 的时间在使用与网络服务器的连接。
相关推荐
Google搜索设备(Google Search Appliance)是一款由Google提供的企业级搜索解决方案,用于优化组织内部文档、网站内容的搜索体验。安装该设备通常分为两个主要阶段:网络连接与软件配置。 #### 二、预安装检查清单...
ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...
一个Java库,作为Google Search Appliance的搜索协议XML API的包装。 XML API可从以下网址公开获得:http://code.google.com/gsa_apis/xml_reference.html此项目的主页和教程位于:http://gsa-japi.sf.net
Google Apps 脚本 - GSA(Google Search Appliance)代理 在您的帐户中创建一个新脚本 新建一个脚本文件,复制里面的gsa-json-proxy.js的内容。 使用您的设置 GSA_URL 运行“测试”功能以启用权限 发布为 Web 应用...
- **资源规划:** 根据实际负载情况合理规划ESXi主机的资源分配。 以上是vCenter Server Appliance 6.5实施手册的关键知识点概览,涵盖了从环境准备到具体部署步骤的全过程。通过对这些知识点的学习和掌握,可以顺利...
Google Search Appliance - JSON 前端 XSLT 中的这个 JSON 生成器专门用于匹配 GSP 格式 XML,该格式生成为许多搜索实现的通用格式。 JSON 将所有内容包装在一个主节点“GSP”中,然后通过将这些(如果存在)包装在...
Java4GSA是一款开源的Java API,专门设计用于与Google Search Appliance(GSA)进行交互。这款API为开发者提供了一种便捷的方式,通过编程来访问和利用GSA的功能,从而在企业内部实现高效、定制化的搜索解决方案。...
HA配置部分具体步骤并没有在摘要中提供,但可以理解为在安装vCenter Server Appliance 6.5之后,接下来的步骤会涉及到设置和配置HA,包括选择故障切换的条件、设定主机群集的网络和存储配置,以及配置资源池和虚拟机...
vCenter Server Appliance 6.7 全系列
1. **USM Appliance概述**: - USM Appliance是AlienVault USM设备系统的用户文档,面向负责网络安全监控及安全威胁识别和解决的人员。 - 文档介绍USM设备WebUI,用于执行网络安全任务。 2. **准备工作和要求**:...
Veritas NetBackup 5250 Appliance
GSA Ruby宝石通过单行进纸,搜索和刻面,快速,轻松地利用GSA索引功能。安装 gem install gsa默认端口默认端口设置为安全端口19902 要将端口更改为http,请将feed扩展名设置为以下... 15 , brand : 'BazBrand' }] 2.)
容量规划是确保Appliance能够处理预期工作负载的关键步骤,包括评估当前和未来的存储需求、确定适当大小的Appliance以及理解系统资源如何随时间变化。这涉及到对备份策略、数据增长速率、备份窗口限制等因素的深入...
* 负载均衡配置:提供负载均衡功能,确保系统的高可用性和性能。 * 故障转移配置:提供自动故障转移功能,确保系统的连续性和可靠性。 高可用性管理 NetBackup Appliance 高可用性解决方案提供了多种管理功能,...
VMware vCenter Server Appliance(简称VCSA)是VMware公司推出的一种用于管理和控制虚拟化环境的虚拟设备。其6.5版本以Project Photon Linux为基础构建,是一种专为容器化应用设计的轻量级操作系统。VCSA 6.5提供了...
1. **集群技术**:通过构建集群,两个或多个Appliance可以共享工作负载并相互备份。如果一个节点出现故障,另一个节点将接管服务,确保连续性。 2. **数据复制**:实时或定期的数据复制确保主Appliance上的备份数据...
VMware-vCenter-Server-Appliance-6.5.0.14000-7515524-updaterepo