当您指定网站上应该或不应该抓取的网址时,或在建立基于网址的集合时,网址应符合下列有效格式。 有关详情,请参阅在 Search Appliance 文档网站上发布的 Constructing URL Patterns(构建网址格式)(仅提供英语版本)。
1.任一包含主机/路径分隔斜线的网址子字符串
http://www.google.cn/
www.google.cn 上使用 HTTP 协议的任意网页。
www.google.cn
www.google.cn上使用任意支持协议的网页。
google.cn/
google.cn 域内的任意网页。
2.字符串任一后缀。您可以利用 $ 在字符串结尾指定后缀。
home.html$
以 home.html 结尾的所有网页。
.pdf$
扩展名为 .pdf 的所有页。
3.字符串的前缀。 您可以通过在字符串开头加上 ^ 来指定前缀。前缀可以和后缀组合使用,以获得更精确的字符串匹配。例如,^candy cane$ 与字符串“candy cane”完全匹配。
^http://
使用 HTTP 协议的任一网页。
^https://
使用 HTTPS 协议的任一网页。
^http://www.google.com/page.html$
仅指定网页。
4.网址的任意子字符串。 利用前缀“contains”指定这些格式。
contains:coffee
包含“coffee”的任一网址。
contains:beans
包含“beans”的任一网址。
5.以 -(减号)符号标记的例外。
candy.com/
-www.candy.com/
表示“www.chocolate.candy.com”是匹配项,但“www.candy.com”不是。
6. GNU 正则表达式库中的正则表达式。在设备中,正则表达式:
(1) 区分大小写(除非您指定“regexpIgnoreCase:”)
(2) 将保留字符添加到正则表达式中时,应使用两个转义字符(反斜杠“\\”)。请注意: regexp: 和 regexpCase: 等同。
regexp:-sid=[0-9A-Z]+/regexp:http://www\\.example\\.google\\.cn/.*/images/
regexpCase:http://www\\.example\\.google\\.cn/.*/images/
regexpIgnoreCase:http://www\\.Example\\.Google\\.cn/.*/IMAGES/
请参阅 GNU 正则表达式库。
7.评论
#这是注释
允许使用以 # 开始的空行和注释。 这些注释会从网址格式中删除并被忽略。
相关推荐
Google搜索设备(Google Search Appliance)是一款由Google提供的企业级搜索解决方案,用于优化组织内部文档、网站内容的搜索体验。安装该设备通常分为两个主要阶段:网络连接与软件配置。 #### 二、预安装检查清单...
ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...
一个Java库,作为Google Search Appliance的搜索协议XML API的包装。 XML API可从以下网址公开获得:http://code.google.com/gsa_apis/xml_reference.html此项目的主页和教程位于:http://gsa-japi.sf.net
Google Search Appliance - JSON 前端 XSLT 中的这个 JSON 生成器专门用于匹配 GSP 格式 XML,该格式生成为许多搜索实现的通用格式。 JSON 将所有内容包装在一个主节点“GSP”中,然后通过将这些(如果存在)包装在...
根据文件内容,以下是...文档中的内容面向多个角色,用户需具备一定的网络基础和安全知识,以有效地使用USM Appliance进行网络安全监控、风险评估、事件管理和合规性报告。文档还假设客户已经完成了Al的某些基础配置。
Google Apps 脚本 - GSA(Google Search Appliance)代理 在您的帐户中创建一个新脚本 新建一个脚本文件,复制里面的gsa-json-proxy.js的内容。 使用您的设置 GSA_URL 运行“测试”功能以启用权限 发布为 Web 应用...
vCenter Server Appliance 6.7 全系列
Java4GSA是一款开源的Java API,专门设计用于与Google Search Appliance(GSA)进行交互。这款API为开发者提供了一种便捷的方式,通过编程来访问和利用GSA的功能,从而在企业内部实现高效、定制化的搜索解决方案。...
### vCenter Server Appliance 6.5 实施手册知识点概览 #### 一、环境配置与准备工作 **硬件环境:** - **服务器型号:** HP ML350 G6 × 2 - **软件版本:** - **ESXi:** VMware-VMvisor-Installer-6.0.0.update02...
Veritas NetBackup 5250 Appliance
借助价格合理且易于管理的解决方案——McAfee Email and Web Security Appliance,可以保护您的企业免遭垃圾邮件、病毒、间谍软件、恶意网站的侵扰,同时还能防止不当的网上浏览行为。它是代替单点电子邮件和Web安全...
VMware vCenter Server Appliance(VCSA)是VMware推出的虚拟化管理工具,它将传统VMware vCenter Server软件部署在了一个预先配置好的虚拟机中,提供了一种更简便快捷的方式来管理VMware vSphere环境。vCenter ...
在本指南中,我们将详细介绍NetBackup Appliance SNMP陷阱的基本概念,包括陷阱类型、陷阱 severity、陷阱消息格式等。同时,我们还将介绍NetBackup Appliance SNMP陷阱的实现机制,包括陷阱生成、陷阱发送和陷阱...
使用 Veritas Access Appliance 命令需要遵守一些基本规则。例如,所有命令都需要以管理员身份运行,否则可能无法正确执行命令。同时,需要注意命令的语法和选项,避免输入错误命令或参数。 Veritas Access ...
VMware-vCenter-Server-Appliance-6.5.0.14000-7515524-updaterepo