`
lxs647
  • 浏览: 523090 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

从Google Search 结果列表中删掉网站信息【笔记】

 
阅读更多

网站域名类似于:https://www.config.com.

现在要从Google的搜索结果列表里面删掉所有与该域名相关的结果。

 

方法一: 添加robots.txt 文件至 https://www.config.com/robots.txt, 即网站根目录

 

服务器架构如下:

1. 在Apache Server Host 所在主机划了两个虚拟服务器主机:

 https://www.config.com 和 https://test.config.com

 

这两个虚拟服务器的环境都是 Tomcat5.5, 用来运行一系列web 应用。

Apache Server 地址映射到两个不同的主机,都监听在端口8443口上。

 

1. 登录Google webmaster tool :https://www.google.com/webmasters/tools/home?hl=zh-CN

 

 按照Google的官方文档,如何生成robots.txt 文件,如何生成验证文件:google*.html.

 

2. 个人认为是最关键的:

    将上面生成(robots.txt 也可以自己手动新建,文件名一定要是“robots.txt")的两个文件上传至网站的根目录。

 

一般情况下,打开https://www.config.com/ 如果没有跳转的话,一般会有个welcome主页显示,将文件上传至主页文件所在目录即可。一般情况下可以是如下目录:

    1. Tomcat/webapp/ROOT/

    2. Tomcat/webapp/appName/

 

我这里的做法就是上传至/webapp/appName/下面,做完这一切之后,理论上来说,应该就行了,但是我错了,我的情况和理论情况有很大的出入。

当在浏览器窗口输入: https://www.config.com/robots.tx t时,页面出现了跳转。

于是跑到代码中,将跳转的地方过滤掉。再试。但是出现了404 错误,无法访问txt文件。

 

于是我把server上的tomcat 原封不动的down下来,放到本地进行测试。

https://localhost/robots.txt

是没有问题的,这就说明tomcat中的配置没有问题。于是很自然的联想到应该是Apache Server 的配置问题。

 

最后转战Apache Server,编辑apache 的http 配置文件:/etc/httpd/conf/httpd.conf

 

 在如下配置中新增指令:

<VirtualHost *:80>

    ServerName www.config.com

    DocumentRoot /var/www/html

    ErrorLog logs/error_log

    CustomLog logs/access_log combined

 

    RewriteEngine On

    RewriteRule ^/google(.*)\.html$ /var/www/html/googlebe2e31644183d63e.html [L]

    RewriteRule ^/robots\.txt$ /var/www/html/robots.txt [L]

    ....

</VirtualHost>

 

 

并将robots.txt 和 googlexxxx.html 两个文件拷到 DocumentRoot 所对应的目录中,在我这里是: /var/www/html 中。

最后重启apache server。

 

再次在浏览器窗口中输入: https://www.config.com/robots.txt

发现还是404错误。

但是输入:http://www.config.com/robots.txt

发现运行正常。再次输入:http://www.config.com/googlebe2e31644183d63e.html

也是正常的能够访问,但是换成:【https】就报404错误。

 

看到这儿,很明显就是ssl.conf中的配置问题了。

于是定位到/etc/httpd/conf.d/ssl.conf 中,新增如下指令:

<VirtualHost *:443>

    ...

    ServerName www.config.com

    ProxyPass /robots.txt !

    ProxyPassMatch ^/google(.*).html !

    ....

</VirtualHost>


 

关于apache 的指令,请参考apache官方文档:

http://httpd.apache.org/docs/current/mod/directives.html
http://httpd.apache.org/docs/current/mod/mod_proxy.html#proxypass

 

Note:

【!指令表示不想对某个子目录进行反向代理.

【ProxyPassMatch】指令表示url正则匹配,不仅仅只是简单的前缀匹配。和【ProxyPass】的单一的前缀匹配不同。

http://blog.csdn.net/fenglibing/article/details/6796094

http://blog.csdn.net/xxfigo/article/details/11180673

http://www.iteye.com/topic/807101

 

 

保存文件后退出,重启apache server。

最后再次在浏览器窗口中输入:

https://www.config.com/robots.txt

http://www.config.com/robots.txt

https://www.config.com/googlebe2e31644183d63e.html

http://www.config.com/googlebe2e31644183d63e.html

 

四个都运行正常。世界是如此的美好。

特此记录解决这一过程中所出现的一些列问题。

 

方法二:

在网站主页的index.html 的head标签中添加 <meta> 标签

<meta name="robots" content="noindex,nofollow">

详细的设置信息,可以参考如下文档:

http://www.robotstxt.org/meta.html

http://www.elegantthemes.com/blog/tips-tricks/how-to-stop-search-engines-from-indexing-specific-posts-and-pages-in-wordpress

https://productforums.google.com/forum/#!topic/webmasters/wmy9vTkcIdY

  • 大小: 5.2 KB
  • 大小: 2.8 KB
分享到:
评论

相关推荐

    ElasticSearch笔记

    Elasticsearch的另一个关键特性是其相关性评分,这使得搜索结果能够根据相关性进行排序,提供更精准的搜索体验。它还支持多租户,允许多个独立的索引并存,每个索引可以有自己的设置和权限控制。 学习Elasticsearch...

    elasticsearch-analysis-dynamic-synonym-7.12.1.zip

    从压缩包内的文件名称列表来看,我们可以推断出以下几个关键知识点: 1. **mysql-connector-java-8.0.21.jar**:这是MySQL数据库连接器的Java版本,暗示这个插件可能需要与MySQL数据库交互,用于存储或检索同义词库...

    云笔记note

    4. **API设计**:设计一套完整的RESTful API接口,如GET/POST/PUT/DELETE等,分别对应查询、创建、更新和删除笔记的操作。接口需要有良好的错误处理和状态码返回。 三、云服务集成 1. **云存储**:可能采用阿里云...

    html入门到放弃笔记

    1、编写一对 body 标记,在body标记中,嵌套一对 div标记,在 div 标记中 ,嵌套一对 a 标记,在 a标记中,嵌套一对 b 标记,b标记中,随意编写一些文本 &lt;body&gt; 这是一段测试文本 &lt;/body&gt; ...

    android 系统可删除软件列表(大全).

    ### Android系统可删除软件列表详解 #### 一、引言 随着智能手机的普及和技术的发展,Android操作系统已经成为全球最广泛使用的移动设备操作系统之一。为了提供更好的用户体验和服务,Android系统内置了许多预装...

    notes.app.github.io:笔记应用

    在数字化时代,笔记应用已经成为个人和专业人士不可或缺的工具,用于记录、整理和检索信息。"NotesTakingApp.github.io"是一个基于HTML技术构建的在线笔记应用,旨在提供一个简洁、高效且易于使用的平台,帮助用户...

    Sentiment-Song-Search

    情感歌曲搜索数据抓取data_collection.ipynb 获取所有歌曲数据,例如歌词,艺术家信息等Song_data_prep.ipynb 通过删除[Verse 1],[Intro],[Chorus]等信息来清洁歌词。 在Google Colab上载data_collection笔记本...

    U880可精简软件详表,所有文件及功能列表[参考].pdf

    以下是针对U880手机的部分可删除和不可删除的软件列表及其功能说明: 1. 账户与同步设置(AccountAndSyncSettings.apk) - 不可删,负责管理账户同步设置,删除可能导致同步功能失效。 2. 闹钟时钟(alarming.apk) - ...

    PyOpenRPA:此仓库包含在Windows上运行的基于Python的机器人,该机器人利用PyOpenRPA库在单独的文件中搜索和提取Yandex结果

    Selenium Web驱动程序和Google Chrome便携式版本已从此存储库中删除,因为该机器人的发布仅供参考。 该机器人使用带有PyOpenRPA库的Python 3.7.2,由于文件大小限制,这些库未提交给Git。 为了测试可操作性,请按照...

    Research Notes (Beta)-crx插件

    保存您的GOOGLE或GOOGLE SCHOLAR SEARCH深入研究某个主题时,请保存搜索以记住您使用过哪些搜索词,哪些搜索结果很好,以及搜索结果有多远。 默认情况下,搜索保存功能处于关闭状态,可以分别为每个Google搜索标签...

    insp-azure

    编辑composer.lock文件并删除Google / API程序包(应为194-251行) 通过FTP将其下载到本地副本中,以获取这些文件以用于开发目的。 所需的目录是“ vendor \ google” 由于这样做,Google / API软件包将不会与...

    note

    1. **需求分析**:首先明确笔记系统的基本功能,如新建、编辑、删除笔记,分类管理,搜索功能,以及可能的协作和分享功能。同时,考虑用户体验,比如界面简洁性,操作流畅性,以及数据同步与备份。 2. **数据结构...

    Anaconda.rar

    在"Anaconda.rar"这个压缩包中,我们可以预见到它包含了一系列与Anaconda相关的安装文件和配置信息。以下是关于Anaconda及其重要组件的详细知识点: 1. **Anaconda的安装**:Anaconda提供了一种跨平台的安装方式,...

    我的linux常用命令大全

    在Linux操作系统中,掌握一些常用的命令是至关重要的,无论你是初学者还是经验丰富的用户,这些命令都能极大地提高你的工作效率。以下是一些常见的Linux命令及其详细解释: 1. **ls**:列出目录内容。例如,`ls -l`...

    雷姆(Remu)::collision:适用于GitHub的Chrome扩展程序,可查看星标,星标历史记录,组织星标存储库

    安装特征显示明星历史显示明星仓库/看仓库(默认关闭)添加笔记仓库设置/编辑/删除标签取消星级/下载Zip /使用HTTPS克隆Google账号同步Token / GistId,Gist自动同步标签数据(至少6秒延迟)等等...回购标签下一功能...

Global site tag (gtag.js) - Google Analytics