在您开始抓取网络内容前,您需要指定一个或多个起始位置。 您可以通过指定要遵循的网址格式和要避免的网址格式来控制和优化抓取幅度。 如果要抓取指定的网址,那么这个网址必须符合仅跟踪和抓取以下格式的网址框中的“至少一个”网址格式,并且“不能”符合勿抓取以下格式的网址框中的任何网址格式。
请注意: 如果某个网址既符合仅跟踪和抓取以下格式的网址中的格式,又符合勿抓取以下格式的网址中的格式,将不抓取该网址。
网址区分大小写。 如果您希望使用不区分大小写的网址,请使用操作符 regexpIgnoreCase。
抓取工具可以访问使用 HTTP、HTTPS 和 SMB 协议的内容。
您可以利用以下选项控制和定义抓取。
从以下网址开始抓取
起始网址(每行输入一个)控制抓取起始位置。 通过跟踪起始网址中所列文档(一个或多个)内的链接,可以访问到您希望在所有集合中包含的全部内容。
这些网址只是抓取的起始点。 它们告诉抓取工具从何处开始抓取。 但是,仅当起始网址中的链接符合仅跟踪和抓取以下格式的网址中的格式时,才会跟踪这些链接并为其编制索引。 例如,如果您在该部分中指定起始网址 http://mycompany.com/,并在仅跟踪和抓取以下格式的网址部分中指定格式 www.mycompany.com/,则抓取工具将会寻找网页 http://www.mycompany.com/ 中的链接,但仅会抓取符合格式 www.mycompany.com/ 的网址并为其编制索引。
此窗口中所有的条目都应是完全限定网址,使用以下格式:
<协议>://<主机>[:端口]/[路径]
在此格式中,协议可包括 HTTP、HTTPS(适用于安全内容)或 SMB(适用于文件共享)。
在方括号 [ ] 中包含的信息是可选的。 在 <主机>[:端口]后的正斜杠“/”是必需的。
有效示例:
https://www.example.com/secure/
http://www.example.com/help/
smb://fileshare.mycompany.com/my-sharename/
无效示例: | 原因: | |
http://www/ | 无效,因为主机名不是完全限定的。 完全限定主机名包括本地主机名和完整域名。 例如: mail.corp.company.com。 | |
www.example.com/ | 缺少协议信息,所以无效。 | |
http://www.example.com | <主机>[:端口]后必须使用“/”。 |
抓取工具将会多次重试抓取暂时无法访问的网址。
仅跟踪和抓取以下格式的网址
从以下网址开始抓取框中的所有条目都需要在仅跟踪和抓取以下格式的网址框中有相应的条目,否则将显示错误信息。
只有符合您在此窗口中指定的格式(每行一个)的网址才会被跟踪和抓取。 这样,您就可以控制在服务器上抓取哪些文件。
示例:
https://www.example.com/secure/
http://www.example.com:80/help/
smb://fileshare.mycompany.com/my-sharename/
\\fileshare.mycompany.com\shared\这些条目只能对包含以上字符串的网址进行抓取。 例如,以下所有网址都将被抓取(假设它们没有包含在勿抓取网址中):
https://www.example.com/secure/file.txt
http://www.example.com:80/help/projectA
smb://fileshare.mycompany.com/my-sharename/folder1
\\fileshare.mycompany.com\shared\folder1
找到的网址会根据这些格式进行检查,以决定是否要纳入索引中。 只会抓取符合这些格式的网址并为其编制索引。 要抓取某一网址并为其编制索引,该网址中应存在一系列符合某一起始网址的“跟踪格式”的链接。 如果不存在有效链接路径,您应将该网址添加至从以下网址开始抓取部分。
您在该窗口列出的网址格式须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键以添加其他格式。 允许空行和注释(以 # 开始)。
“抓取网址”页上的网址区分大小写。 如果您希望使用不区分大小写的网址格式匹配,请使用操作符regexpIgnoreCase。 例如,假设您输入以下格式:
regexpIgnoreCase:http://www.mycompany.com/documents/
该格式也与以下网址相匹配:
http://www.mycompany.com/Documents/
http://www.mycompany.com/DOCUMENTS/
勿抓取以下格式的网址
文件类型搜索会提取文档中的所有纯文本并为其编制索引。 但不会为图形、图表和格式化信息编制索引。 您可以将任意文件格式排除在抓取和编制索引的格式之外,只需定义网址格式例外,就可阻止对这些网页进行抓取。 符合您在该窗口中指定的格式(每行一个)的网址不会被抓取。
该选项可以阻止抓取特定的文件类型、目录或其他网页组。 例如,在此框中输入格式 contains:? 将阻止抓取许多通用网关界面 (CGI) 脚本。
您在此处列出的网址格式必须符合有效网址格式规则。 要输入网址格式,请在该窗口输入有效网址。 按下Enter 键,在新行中添加其他格式。 允许空行和注释(以 # 开始)。
为方便起见,该框内预置了多个网址格式和文件类型,其中有些您可能不希望抓取工具为其编制索引。 我们建议您,除非您检测到自己站点的某些部分目前被排除在了这些规则之外,否则请不要删除任何默认格式。 有关支持的文件格式的详情,请参阅公共 Search Appliance 文档网页上的“可编制索引的文件格式”。
要使抓取工具不抓取某种格式或文件类型,请删除包含该文件类型的那一行中的 # 标记。 例如,要让抓取工具不抓取服务器上的 Excel 文件,请将行
#.xls$
修改为
.xls$
以上内容都是来自Google Search Appliance的帮助文档。
从以下网址开始抓取可以看做是外链;勿抓取以下格式的网址 可以看做是robots.txt文件。
一些网站优化中需要注意的点已标红。
相关推荐
Google搜索设备(Google Search Appliance)是一款由Google提供的企业级搜索解决方案,用于优化组织内部文档、网站内容的搜索体验。安装该设备通常分为两个主要阶段:网络连接与软件配置。 #### 二、预安装检查清单...
ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...
“google”标签表明该程序与Google搜索引擎API交互,如使用Google Custom Search JSON API或Google Search Appliance等。使用这些API时,开发者需要遵循Google的使用条款,包括速率限制和合规性要求。 在压缩包子...
一个Java库,作为Google Search Appliance的搜索协议XML API的包装。 XML API可从以下网址公开获得:http://code.google.com/gsa_apis/xml_reference.html此项目的主页和教程位于:http://gsa-japi.sf.net
Java4GSA是一款开源的Java API,专门设计用于与Google Search Appliance(GSA)进行交互。这款API为开发者提供了一种便捷的方式,通过编程来访问和利用GSA的功能,从而在企业内部实现高效、定制化的搜索解决方案。...
Google Apps 脚本 - GSA(Google Search Appliance)代理 在您的帐户中创建一个新脚本 新建一个脚本文件,复制里面的gsa-json-proxy.js的内容。 使用您的设置 GSA_URL 运行“测试”功能以启用权限 发布为 Web 应用...
Google Search Appliance - JSON 前端 XSLT 中的这个 JSON 生成器专门用于匹配 GSP 格式 XML,该格式生成为许多搜索实现的通用格式。 JSON 将所有内容包装在一个主节点“GSP”中,然后通过将这些(如果存在)包装在...
vCenter Server Appliance 6.7 全系列
- USM Appliance Sensor:负责数据收集与监控。 - USM Appliance Logger:处理日志数据。 5. **USM Appliance网络安全功能**: - 提供资产发现、漏洞评估、入侵检测、行为监控、SIEM等功能。 6. **USM ...
GSA Ruby宝石通过单行进纸,搜索和刻面,快速,轻松地利用GSA索引功能。安装 gem install gsa默认端口默认端口设置为安全端口19902 要将端口更改为http,请将feed扩展名设置为以下内容: GSA :: FEED_EXTENSION = ":...
#### 二、vCenter Server Appliance 的核心概念与架构 **1. Platform Services Controller (PSC):** - **定义:** 自vSphere 6.0起,vCenter Server及其组件所需的服务被整合进PSC中。 - **部署原则:** - **嵌入式...
Veritas NetBackup 5250 Appliance
VMware vCenter Server Appliance(简称VCSA)是VMware公司推出的一种用于管理和控制虚拟化环境的虚拟设备。其6.5版本以Project Photon Linux为基础构建,是一种专为容器化应用设计的轻量级操作系统。VCSA 6.5提供了...
如果您希望为Sitecore网站实施轻便,有针对性和灵活的搜索,而Coveo,Google Site Search或Google Search Appliance则不可行,那么此模块将是您的最佳选择。 它是如何工作的? Sitecore提供了构建我们的解决方案的...
`collective.gsa`库主要用于与Google Search Appliance的集成和交互。Google Search Appliance(GSA)是一款硬件设备,它能够对企业内部网络中的各种数据源进行索引和搜索,为企业提供了一种强大的内部搜索引擎。`...
值得注意的是,由于collective.gsa库是与Google Search Appliance进行交互的,因此使用该库需要具备一定的GSA操作知识。此外,谷歌已经停止了对GSA硬件设备的支持,转而推荐使用Google Cloud Search,这意味着...
vCenter Server Appliance 6.5是该系列产品的较新版本,与旧版本相比,它引入了多种新功能和改进。 vCenter Server Appliance 6.5的特点和新功能包括: 1. 支持vCenter HA(高可用性):vCenter HA是vSphere 6.5...