- 浏览: 63077 次
- 性别:
- 来自: 北京
最新评论
-
xing00lian:
gg=G从文件开头gg格式化到文件结尾G
vim格式化代码 -
yaven:
comaple 写道你好,我现在在研究mahout的PFPGr ...
mahout中的PFPGrowth算法源码解析 -
comaple:
你好,我现在在研究mahout的PFPGrowth算法,想问一 ...
mahout中的PFPGrowth算法源码解析 -
yaven:
saram 写道可视化模式下面输入gg=G即可以完成格式化代码 ...
vim格式化代码 -
saram:
可视化模式下面输入
gg=G
即可以完成格式化代码操作。
vim格式化代码
转自:http://hi.baidu.com/wzk717/blog/item/ab854ddfb8350a19495403d8.html
1、robots.txt是什么?
robots.txt是一个纯文本文件,用来告诉网络蜘蛛(不仅限搜索引擎蜘蛛)本站中哪些位置允许抓取,哪些位置不允许抓取。
2、如何正确放置robots.txt?
首先,robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。
其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。
3、robots.txt内容应该如何写?
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
这就是前面说到的那两位朋友网站robots.txt的问题,他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。
4、robots.txt需要注意的几个问题:
robots.txt文件中任意一行Disallow的值为空,其他指定的项都将失效,整站允许User-agent指定的蜘蛛抓取;robots.txt文件中允许使用注释,以“#”开头的内容被认作注释;但注释最好独立成一行,尽量不要加在参数后面,如“Disallow: /admin/ #manage dir”,某些蜘蛛可能将注释当作值的一部分。
尽量不要在一行的前面出现空格,如“ Disallow: /”,可能某些蜘蛛无法正确读取。
推荐一个robots.txt检查工具:http://tool.motoricerca.info/robots-checker.phtml
5、将你的XML格式Sitemap地址放到robots.txt中Robin新发现,并率先在国内提出的,大家可以到点石博客中下载Robin的“网站如何被高效索引”演讲稿阅读。
加入Sitemap地址的作用是,如果搜索引擎蜘蛛能够识别此行,就能快速获知网站的XML地图文件地址,并将地图文件作为一个URL参考进行高效索引(具体哪些搜索引擎蜘蛛能够识别目前我还不清楚)。
如樂思蜀SEO博客的robots.txt,紧接着User-agent的第二行:
Sitemap: http://www.baidu.com/sitemap.xml
此处之前的内容,将Sitemap放在第一行的说法错误,特此更正。
robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在和之间,格式:
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
noindex,nofollow可以写成none,如:
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。
最后,给大家一个建议,不要太刻意的在robots.txt中设置过多禁止文件或目录,只设置确实不希望被搜索引擎索引的目录和文件就可以了。
特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。前阵一位做旅游的朋友,网站中有大量的旅游景点图片,几大搜索引擎中却都没有索引,后来对网站检查时发现图片目录upload在管理目录admin下,被robots.txt禁止抓取了。
我知道可以通过Google 网站管理员工具向 Google 提交网站地图 Sitemap,那么我如何向百度、雅虎等其他搜索引擎提交呢?我是否需要制作一个类似 Google Sitemap 一样的 baidu Sitemap 呢?
答案:搜索引擎都遵循一样的 Sitemap 协议,baidu Sitemap 内容和形式可以和 Google Sitemap 完全一样。但因为百度还没开通类似 Google 网站管理员工具的提交后台,所以,我们需要采用以下方式提交"baidu Sitemap" 。
我们可以通过在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和 文本形式的 Sitemap。
Sitemap: 填写 Sitemap 的完整网址
如:http://www.example.com/sitemap.xml. http://www.example.com/sitemap.txt
如果有很多个.xml 或 .txt 文件,则你可以先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。 中填写完整的该索引文件的网址。
以上代码行放在 robots.txt 文件的任何位置都可以。
Google 网站管理员工具可以清楚看到 Sitemap 文件是否正确以及其他索引统计信息,所以除了以上的设置,我们建议你通过 Google 管理员工具再提交一次,以方便 Google 对你网站的更好收录。
虽然网上关于robots的文章已经很多了,发现都不尽全面,整理了一下供参考。
向Google、Yahoo!、MSN、Ask和百度提交sitemap
向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/pingu=http://your.domainname/sitemap.xml这是向MSN直接提交网站地图的后门URL
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/pingsitemap=http://your.domainname/sitemap.xml
向网店联盟提交地址:http://www.dianmeng.com/
向百度Baidu提交网站地图Sitemap: 没办法,现在百度不支持Sitemap。但可通过http://www.baidu.com/search/url_submit.html来提交你的网址。百度会自行搜索,更新速度很快。
1、robots.txt是什么?
robots.txt是一个纯文本文件,用来告诉网络蜘蛛(不仅限搜索引擎蜘蛛)本站中哪些位置允许抓取,哪些位置不允许抓取。
2、如何正确放置robots.txt?
首先,robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。
其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。
3、robots.txt内容应该如何写?
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
这就是前面说到的那两位朋友网站robots.txt的问题,他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。
4、robots.txt需要注意的几个问题:
robots.txt文件中任意一行Disallow的值为空,其他指定的项都将失效,整站允许User-agent指定的蜘蛛抓取;robots.txt文件中允许使用注释,以“#”开头的内容被认作注释;但注释最好独立成一行,尽量不要加在参数后面,如“Disallow: /admin/ #manage dir”,某些蜘蛛可能将注释当作值的一部分。
尽量不要在一行的前面出现空格,如“ Disallow: /”,可能某些蜘蛛无法正确读取。
推荐一个robots.txt检查工具:http://tool.motoricerca.info/robots-checker.phtml
5、将你的XML格式Sitemap地址放到robots.txt中Robin新发现,并率先在国内提出的,大家可以到点石博客中下载Robin的“网站如何被高效索引”演讲稿阅读。
加入Sitemap地址的作用是,如果搜索引擎蜘蛛能够识别此行,就能快速获知网站的XML地图文件地址,并将地图文件作为一个URL参考进行高效索引(具体哪些搜索引擎蜘蛛能够识别目前我还不清楚)。
如樂思蜀SEO博客的robots.txt,紧接着User-agent的第二行:
Sitemap: http://www.baidu.com/sitemap.xml
此处之前的内容,将Sitemap放在第一行的说法错误,特此更正。
robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在和之间,格式:
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
noindex,nofollow可以写成none,如:
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。
最后,给大家一个建议,不要太刻意的在robots.txt中设置过多禁止文件或目录,只设置确实不希望被搜索引擎索引的目录和文件就可以了。
特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。前阵一位做旅游的朋友,网站中有大量的旅游景点图片,几大搜索引擎中却都没有索引,后来对网站检查时发现图片目录upload在管理目录admin下,被robots.txt禁止抓取了。
我知道可以通过Google 网站管理员工具向 Google 提交网站地图 Sitemap,那么我如何向百度、雅虎等其他搜索引擎提交呢?我是否需要制作一个类似 Google Sitemap 一样的 baidu Sitemap 呢?
答案:搜索引擎都遵循一样的 Sitemap 协议,baidu Sitemap 内容和形式可以和 Google Sitemap 完全一样。但因为百度还没开通类似 Google 网站管理员工具的提交后台,所以,我们需要采用以下方式提交"baidu Sitemap" 。
我们可以通过在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和 文本形式的 Sitemap。
Sitemap: 填写 Sitemap 的完整网址
如:http://www.example.com/sitemap.xml. http://www.example.com/sitemap.txt
如果有很多个.xml 或 .txt 文件,则你可以先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。 中填写完整的该索引文件的网址。
以上代码行放在 robots.txt 文件的任何位置都可以。
Google 网站管理员工具可以清楚看到 Sitemap 文件是否正确以及其他索引统计信息,所以除了以上的设置,我们建议你通过 Google 管理员工具再提交一次,以方便 Google 对你网站的更好收录。
虽然网上关于robots的文章已经很多了,发现都不尽全面,整理了一下供参考。
向Google、Yahoo!、MSN、Ask和百度提交sitemap
向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/pingu=http://your.domainname/sitemap.xml这是向MSN直接提交网站地图的后门URL
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/pingsitemap=http://your.domainname/sitemap.xml
向网店联盟提交地址:http://www.dianmeng.com/
向百度Baidu提交网站地图Sitemap: 没办法,现在百度不支持Sitemap。但可通过http://www.baidu.com/search/url_submit.html来提交你的网址。百度会自行搜索,更新速度很快。
1、robots.txt是什么?
robots.txt是一个纯文本文件,用来告诉网络蜘蛛(不仅限搜索引擎蜘蛛)本站中哪些位置允许抓取,哪些位置不允许抓取。
2、如何正确放置robots.txt?
首先,robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。
其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。
3、robots.txt内容应该如何写?
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
这就是前面说到的那两位朋友网站robots.txt的问题,他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。
4、robots.txt需要注意的几个问题:
robots.txt文件中任意一行Disallow的值为空,其他指定的项都将失效,整站允许User-agent指定的蜘蛛抓取;robots.txt文件中允许使用注释,以“#”开头的内容被认作注释;但注释最好独立成一行,尽量不要加在参数后面,如“Disallow: /admin/ #manage dir”,某些蜘蛛可能将注释当作值的一部分。
尽量不要在一行的前面出现空格,如“ Disallow: /”,可能某些蜘蛛无法正确读取。
推荐一个robots.txt检查工具:http://tool.motoricerca.info/robots-checker.phtml
5、将你的XML格式Sitemap地址放到robots.txt中Robin新发现,并率先在国内提出的,大家可以到点石博客中下载Robin的“网站如何被高效索引”演讲稿阅读。
加入Sitemap地址的作用是,如果搜索引擎蜘蛛能够识别此行,就能快速获知网站的XML地图文件地址,并将地图文件作为一个URL参考进行高效索引(具体哪些搜索引擎蜘蛛能够识别目前我还不清楚)。
如樂思蜀SEO博客的robots.txt,紧接着User-agent的第二行:
Sitemap: http://www.baidu.com/sitemap.xml
此处之前的内容,将Sitemap放在第一行的说法错误,特此更正。
robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在和之间,格式:
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
noindex,nofollow可以写成none,如:
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。
最后,给大家一个建议,不要太刻意的在robots.txt中设置过多禁止文件或目录,只设置确实不希望被搜索引擎索引的目录和文件就可以了。
特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。前阵一位做旅游的朋友,网站中有大量的旅游景点图片,几大搜索引擎中却都没有索引,后来对网站检查时发现图片目录upload在管理目录admin下,被robots.txt禁止抓取了。
我知道可以通过Google 网站管理员工具向 Google 提交网站地图 Sitemap,那么我如何向百度、雅虎等其他搜索引擎提交呢?我是否需要制作一个类似 Google Sitemap 一样的 baidu Sitemap 呢?
答案:搜索引擎都遵循一样的 Sitemap 协议,baidu Sitemap 内容和形式可以和 Google Sitemap 完全一样。但因为百度还没开通类似 Google 网站管理员工具的提交后台,所以,我们需要采用以下方式提交"baidu Sitemap" 。
我们可以通过在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和 文本形式的 Sitemap。
Sitemap: 填写 Sitemap 的完整网址
如:http://www.example.com/sitemap.xml. http://www.example.com/sitemap.txt
如果有很多个.xml 或 .txt 文件,则你可以先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。 中填写完整的该索引文件的网址。
以上代码行放在 robots.txt 文件的任何位置都可以。
Google 网站管理员工具可以清楚看到 Sitemap 文件是否正确以及其他索引统计信息,所以除了以上的设置,我们建议你通过 Google 管理员工具再提交一次,以方便 Google 对你网站的更好收录。
虽然网上关于robots的文章已经很多了,发现都不尽全面,整理了一下供参考。
向Google、Yahoo!、MSN、Ask和百度提交sitemap
向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/pingu=http://your.domainname/sitemap.xml这是向MSN直接提交网站地图的后门URL
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/pingsitemap=http://your.domainname/sitemap.xml
向网店联盟提交地址:http://www.dianmeng.com/
向百度Baidu提交网站地图Sitemap: 没办法,现在百度不支持Sitemap。但可通过http://www.baidu.com/search/url_submit.html来提交你的网址。百度会自行搜索,更新速度很快。
1、robots.txt是什么?
robots.txt是一个纯文本文件,用来告诉网络蜘蛛(不仅限搜索引擎蜘蛛)本站中哪些位置允许抓取,哪些位置不允许抓取。
2、如何正确放置robots.txt?
首先,robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。
其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。
3、robots.txt内容应该如何写?
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
这就是前面说到的那两位朋友网站robots.txt的问题,他们用“Disallow: /”禁止了蜘蛛抓取根目录下的所有内容。
4、robots.txt需要注意的几个问题:
robots.txt文件中任意一行Disallow的值为空,其他指定的项都将失效,整站允许User-agent指定的蜘蛛抓取;robots.txt文件中允许使用注释,以“#”开头的内容被认作注释;但注释最好独立成一行,尽量不要加在参数后面,如“Disallow: /admin/ #manage dir”,某些蜘蛛可能将注释当作值的一部分。
尽量不要在一行的前面出现空格,如“ Disallow: /”,可能某些蜘蛛无法正确读取。
推荐一个robots.txt检查工具:http://tool.motoricerca.info/robots-checker.phtml
5、将你的XML格式Sitemap地址放到robots.txt中Robin新发现,并率先在国内提出的,大家可以到点石博客中下载Robin的“网站如何被高效索引”演讲稿阅读。
加入Sitemap地址的作用是,如果搜索引擎蜘蛛能够识别此行,就能快速获知网站的XML地图文件地址,并将地图文件作为一个URL参考进行高效索引(具体哪些搜索引擎蜘蛛能够识别目前我还不清楚)。
如樂思蜀SEO博客的robots.txt,紧接着User-agent的第二行:
Sitemap: http://www.baidu.com/sitemap.xml
此处之前的内容,将Sitemap放在第一行的说法错误,特此更正。
robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在和之间,格式:
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
noindex,nofollow可以写成none,如:
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。
最后,给大家一个建议,不要太刻意的在robots.txt中设置过多禁止文件或目录,只设置确实不希望被搜索引擎索引的目录和文件就可以了。
特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。前阵一位做旅游的朋友,网站中有大量的旅游景点图片,几大搜索引擎中却都没有索引,后来对网站检查时发现图片目录upload在管理目录admin下,被robots.txt禁止抓取了。
我知道可以通过Google 网站管理员工具向 Google 提交网站地图 Sitemap,那么我如何向百度、雅虎等其他搜索引擎提交呢?我是否需要制作一个类似 Google Sitemap 一样的 baidu Sitemap 呢?
答案:搜索引擎都遵循一样的 Sitemap 协议,baidu Sitemap 内容和形式可以和 Google Sitemap 完全一样。但因为百度还没开通类似 Google 网站管理员工具的提交后台,所以,我们需要采用以下方式提交"baidu Sitemap" 。
我们可以通过在 robots.txt 文件中添加以下代码行来告诉搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和 文本形式的 Sitemap。
Sitemap: 填写 Sitemap 的完整网址
如:http://www.example.com/sitemap.xml. http://www.example.com/sitemap.txt
如果有很多个.xml 或 .txt 文件,则你可以先建立一个索引文件,把这些.xml 或 .txt 文件的完整网址列在其中。 中填写完整的该索引文件的网址。
以上代码行放在 robots.txt 文件的任何位置都可以。
Google 网站管理员工具可以清楚看到 Sitemap 文件是否正确以及其他索引统计信息,所以除了以上的设置,我们建议你通过 Google 管理员工具再提交一次,以方便 Google 对你网站的更好收录。
虽然网上关于robots的文章已经很多了,发现都不尽全面,整理了一下供参考。
向Google、Yahoo!、MSN、Ask和百度提交sitemap
向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/pingu=http://your.domainname/sitemap.xml这是向MSN直接提交网站地图的后门URL
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/pingsitemap=http://your.domainname/sitemap.xml
向网店联盟提交地址:http://www.dianmeng.com/
向百度Baidu提交网站地图Sitemap: 没办法,现在百度不支持Sitemap。但可通过http://www.baidu.com/search/url_submit.html来提交你的网址。百度会自行搜索,更新速度很快。
发表评论
-
mahout - NavieBayes算法解析
2013-11-26 18:03 01. 参数 input,output 不解释。 l ... -
gVim的中文问题
2013-03-19 10:24 0"""""& ... -
jvm使用中的一些经验
2012-11-16 14:28 01. jvm中影响系统效率的因素。 2. jvm中YGC和F ... -
mahout中的PFPGrowth算法源码解析
2012-11-12 09:55 7737略做分析,忘批评指正。 mahout源码版本:0.7 ... -
Hadoop错误码速查
2012-11-08 16:14 0转自:http://blog.csdn.net/liux ... -
linux shell脚本
2012-10-29 11:51 0取脚本所在目录: bin=`dirname " ... -
程序员如何保持优秀
2012-10-25 13:26 645转自: http://edu.chinai ... -
fedora15 用WN721N
2011-08-24 21:09 1048http://thinkingsparrow.wordpres ... -
(转)FreeBSD 8.1中无线网卡(wlan0相关)的使用
2011-08-15 21:06 3596转自: http://www.baidu.com. ... -
freemarker生成页面字符串
2011-07-12 21:44 3758/** * 按模板文件生成页面字符串。 ... -
Intellij IDEA初始化开发环境
2011-07-08 23:10 16811. 中文支持: Appearance -> ... -
Vim格式化xml文件
2011-06-13 14:39 12700转自: http://www.viuser.com/201 ... -
java执行时指定需要的包路径
2011-06-12 09:19 1327java -Djava.ext.dirs=libpath ... -
ctags!!!
2011-04-21 15:45 1716unzip -d $JAVA_HOME/src $JAVA_H ... -
vim格式化代码
2011-04-18 16:46 10052转的,不知道来源是哪里。。。 (1) 按两下小写g,即 ... -
pgsql编码设置
2011-04-11 14:11 3365此处转自 http://blogold.chinaunix.n ... -
FUck "^M" at the end in vi
2011-03-07 16:32 1077From "http://linuxtoy.org/ ... -
win7的操作快捷键
2011-01-12 19:27 996转自:http://www.51ibm.com/thread- ... -
PgSQL自增字段重新计数
2011-01-10 18:17 1906select setval('t_id_seq',1,fals ... -
java web上传文件
2010-07-16 15:39 908<form method="post" ...
相关推荐
5. **注释**: 在文件中添加注释可以帮助其他管理员理解robots.txt中的设置。 - 示例:`# 这是一个注释` #### 示例解析 假设我们有一个网站http://www.seovip.cn/,并且想要阻止所有爬虫访问网站的根目录以及特定...
在本文中,我们将深入探讨Laravel框架中的"laravel-robots-txt"组件,以及它如何在Laravel 5.x版本中实现对robots.txt文件和HTML元标签的半自动化管理。robots.txt文件对于搜索引擎优化(SEO)至关重要,因为它指导...
对于网站管理员来说,正确设置 `robots.txt` 文件至关重要,因为它能帮助控制搜索引擎收录的内容,保护隐私信息,以及优化网站的SEO表现。 **基本结构与语法** `robots.txt` 文件通常包含以下两个主要部分: 1. *...
即使在 `robots.txt` 中设置禁止某个搜索引擎抓取的规则,如果其他网站有链接指向这些页面,这些页面仍可能出现在搜索引擎的搜索结果中。不过,页面内容不会被展示,仅显示其他网站对这些页面的描述。 4. **控制...
HTML 语言 Meta 标签解析及 SEO 优化 Meta 标签是 HTML 语言 HEAD ... Meta 标签的使用可以提高网站的搜索引擎优化(SEO),提高网站的排名和可见性。因此,合理使用 Meta 标签可以对网站的发展和推广产生积极的影响。
robots.txt,这是一个在互联网上起着关键作用的纯文本文件,它是网站管理员与搜索引擎之间的一种通信方式,用于规范搜索引擎爬虫的行为,决定哪些页面可以被索引,哪些应被排除在外。理解并正确使用robots.txt,对于...
本文档提供了一份SEO网站优化测试题及答案,涵盖了SEO的多个方面,包括网页标题、关键字密度、meta标签、图片优化、内容生成、链接建设、网站结构、搜索引擎营销、robots.txt、HTTP状态码、URL结构、PR值、友情链接...
### Robots使用例子与详解 ...综上所述,通过合理设置`robots.txt`文件以及利用HTML中的`<meta>`标签,可以有效地管理搜索引擎对网站内容的抓取和索引,这对于提高网站的SEO效果和用户体验具有重要意义。
SEO 运用 meta 标签进行网站优化 meta 标签是 HTML 文档头部中的一个重要组成部分,它提供了关于网页的元信息,用于帮助搜索引擎和浏览器更好地理解网页的内容和布局。meta 标签有多种类型,每种类型都有其特定的...
本文将详细介绍WebApp中常用的`<meta>`标签及其应用场景,帮助前端开发者更好地理解并运用这些标签。 #### 二、Viewport Meta标签 `<meta name="viewport" content="...">` 是WebApp中最关键的元标签之一,主要用于...
下面将详细解释这两个工具及其在IT行业的应用。 首先,关键词排名查询工具是SEO从业者用来跟踪和分析网站在搜索引擎中特定关键词排名的软件。这款最新的版本显然提供了更加便捷和高效的服务,使得用户无需手动在...
正确地使用`<meta>`标签对于提高网站的可访问性、SEO优化等方面具有重要作用。例如: - 使用`<meta name="Keywords">`可以帮助搜索引擎更好地理解页面的主题。 - `Content-Type`属性用于指定页面使用的字符集编码,...
- **robots.txt**:正确设置robots.txt文件,指导搜索引擎爬虫的抓取行为。 - **移动友好性**:确保网站在移动设备上的访问体验良好。 - **加载速度**:优化图片大小、减少HTTP请求等措施来提高页面加载速度。 ####...
5. 站内细节优化:URL 静态化及嵌入、首选域、Robots.txt、网站关键词密度控制 2%-8% 之间、404 页面设置、301 重定向、内页增加锚文本以及第一次出现该页关键词进行加粗、长尾关键词记录单、网站地图 Sitemap、网站...
Meta标签在网页设计中扮演着至关重要的角色,它为搜索引擎优化(SEO)提供了关键信息,并控制了浏览器如何处理网页内容。本文将深入探讨Meta标签的两种主要属性——name属性和http-equiv属性,以及它们各自的参数值...
本资料“WEB前端程序猿必看的meta标签汇总共4页.pdf”显然是一个专门为前端开发者编写的Meta标签参考指南,尽管压缩包中还有一个名为“赚钱项目”的文件,但我们的重点将集中在Meta标签的知识上。 1. **元信息与...
通过合理设置 `<meta>` 标签中的 `name` 和 `content` 属性,可以显著提高网站在搜索引擎中的可见性和排名。例如,`<meta name="Keywords" content="...">` 可以帮助搜索引擎理解页面的主要主题,而 `<meta name=...
【SEO.rar_SEO】这个压缩包文件主要涵盖了与搜索引擎优化(SEO)相关的知识,其中包含了一份名为"搜索引擎优化(SEO)知识完全手册.pdf"的详细教程,以及一个名为"www.pudn.com.txt"的文本文件,可能是相关资料的...
•File Editor:设置robots.txt、.htaccess相关文件 •Int.Rel.Researcher:设置关键词以及每页显示的关键词数量 •Linkbox Inserter:为每篇文章设置链接地址 •Meta Editor:博客首页的关键词、描述的设置 •More ...