`
wbj0110
  • 浏览: 1610437 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Google Search Appliance 有效网址格式规则

阅读更多

当您指定网站上应该或不应该抓取的网址时,或在建立基于网址的集合时,网址应符合下列有效格式。 有关详情,请参阅在 Search Appliance 文档网站上发布的 Constructing URL Patterns(构建网址格式)(仅提供英语版本)。

1.任一包含主机/路径分隔斜线的网址子字符串

http://www.google.cn/

www.google.cn 上使用 HTTP 协议的任意网页。

www.google.cn

www.google.cn上使用任意支持协议的网页。

google.cn/

google.cn 域内的任意网页。

2.字符串任一后缀。您可以利用 $ 在字符串结尾指定后缀。

home.html$

以 home.html 结尾的所有网页。

.pdf$

扩展名为 .pdf 的所有页。

3.字符串的前缀。 您可以通过在字符串开头加上 ^ 来指定前缀。前缀可以和后缀组合使用,以获得更精确的字符串匹配。例如,^candy cane$ 与字符串“candy cane”完全匹配。

^http://

使用 HTTP 协议的任一网页。

^https://

使用 HTTPS 协议的任一网页。

^http://www.google.com/page.html$

仅指定网页。

4.网址的任意子字符串。 利用前缀“contains”指定这些格式。

contains:coffee

包含“coffee”的任一网址。

contains:beans

包含“beans”的任一网址。

5.以 -(减号)符号标记的例外。

candy.com/
-www.candy.com/

表示“www.chocolate.candy.com”是匹配项,但“www.candy.com”不是。

6. GNU 正则表达式库中的正则表达式。在设备中,正则表达式:

(1) 区分大小写(除非您指定“regexpIgnoreCase:”)

(2) 将保留字符添加到正则表达式中时,应使用两个转义字符(反斜杠“\\”)。请注意: regexp: 和 regexpCase: 等同。

regexp:-sid=[0-9A-Z]+/regexp:http://www\\.example\\.google\\.cn/.*/images/

regexpCase:http://www\\.example\\.google\\.cn/.*/images/

regexpIgnoreCase:http://www\\.Example\\.Google\\.cn/.*/IMAGES/

请参阅 GNU 正则表达式库

7.评论

#这是注释

允许使用以 # 开始的空行和注释。 这些注释会从网址格式中删除并被忽略。

分享到:
评论

相关推荐

    Installing the Google Search Appliance.pdf

    Google搜索设备(Google Search Appliance)是一款由Google提供的企业级搜索解决方案,用于优化组织内部文档、网站内容的搜索体验。安装该设备通常分为两个主要阶段:网络连接与软件配置。 #### 二、预安装检查清单...

    ccs-container:基于Apache Solr的Cisco Config Search Appliance

    ccs容器基于Apache Solr的Cisco Config Search Appliance(Docker Image)概述ccs-container是一个即用型Docker映像,用于索引和搜索基于Cisco的企业(或家庭)网络的配置。 它提供了以下用户界面: 这是什么意思,...

    Google Search Appliance Java API-开源

    一个Java库,作为Google Search Appliance的搜索协议XML API的包装。 XML API可从以下网址公开获得:http://code.google.com/gsa_apis/xml_reference.html此项目的主页和教程位于:http://gsa-japi.sf.net

    GSJSON:用于 Google Search Appliance (GSA) 的 JSON 样式表

    Google Search Appliance - JSON 前端 XSLT 中的这个 JSON 生成器专门用于匹配 GSP 格式 XML,该格式生成为许多搜索实现的通用格式。 JSON 将所有内容包装在一个主节点“GSP”中,然后通过将这些(如果存在)包装在...

    usm-appliance-用户文档.pdf

    根据文件内容,以下是...文档中的内容面向多个角色,用户需具备一定的网络基础和安全知识,以有效地使用USM Appliance进行网络安全监控、风险评估、事件管理和合规性报告。文档还假设客户已经完成了Al的某些基础配置。

    gsa-jsonp-proxy:Google Search Appliance (GSA) JSONP 代理

    Google Apps 脚本 - GSA(Google Search Appliance)代理 在您的帐户中创建一个新脚本 新建一个脚本文件,复制里面的gsa-json-proxy.js的内容。 使用您的设置 GSA_URL 运行“测试”功能以启用权限 发布为 Web 应用...

    vCenter Server Appliance 6.7 BT下载

    vCenter Server Appliance 6.7 全系列

    java4gsa:用于搜索Google Search Appliance(GSA)的开源Java API

    Java4GSA是一款开源的Java API,专门设计用于与Google Search Appliance(GSA)进行交互。这款API为开发者提供了一种便捷的方式,通过编程来访问和利用GSA的功能,从而在企业内部实现高效、定制化的搜索解决方案。...

    vCenter Server Appliance6.5实施手册

    ### vCenter Server Appliance 6.5 实施手册知识点概览 #### 一、环境配置与准备工作 **硬件环境:** - **服务器型号:** HP ML350 G6 × 2 - **软件版本:** - **ESXi:** VMware-VMvisor-Installer-6.0.0.update02...

    Veritas NetBackup 5250 Appliance.pdf

    Veritas NetBackup 5250 Appliance

    McAfee Email and Web Security Appliance解决方案

    借助价格合理且易于管理的解决方案——McAfee Email and Web Security Appliance,可以保护您的企业免遭垃圾邮件、病毒、间谍软件、恶意网站的侵扰,同时还能防止不当的网上浏览行为。它是代替单点电子邮件和Web安全...

    VMware-vCenter-Server-Appliance-6.5及HA配置手册

    VMware vCenter Server Appliance(VCSA)是VMware推出的虚拟化管理工具,它将传统VMware vCenter Server软件部署在了一个预先配置好的虚拟机中,提供了一种更简便快捷的方式来管理VMware vSphere环境。vCenter ...

    NetBackup Appliance SNMP Traps Reference Guide - 3.1.pdf

    在本指南中,我们将详细介绍NetBackup Appliance SNMP陷阱的基本概念,包括陷阱类型、陷阱 severity、陷阱消息格式等。同时,我们还将介绍NetBackup Appliance SNMP陷阱的实现机制,包括陷阱生成、陷阱发送和陷阱...

    Veritas Access Appliance Command Reference Guide - 7.

    使用 Veritas Access Appliance 命令需要遵守一些基本规则。例如,所有命令都需要以管理员身份运行,否则可能无法正确执行命令。同时,需要注意命令的语法和选项,避免输入错误命令或参数。 Veritas Access ...

    VMware-vCenter-Server-Appliance-6.5.0.14000-7515524.txt

    VMware-vCenter-Server-Appliance-6.5.0.14000-7515524-updaterepo

Global site tag (gtag.js) - Google Analytics