内容摘要:不得不承认,将动态网页链接rewriting成静态链接是最保险和稳定的面向搜索引擎优化方式
此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性,如果网站想更好地被搜索引擎收录,网站设计除了面向用户友好(User Friendly)外,搜索引擎友好(Search Engine Friendly)的设计也是非常重要的。进入搜索引擎的页面内容越多,则被用户用不同的关键词找到的几率越大。在Google的算法调查一文中提到一个站点被Google索引页面的数量其实对PageRank也是有一定影响的。由于Google 突出的是整个网络中相对静态的部分(动态网页索引量比较小),链接地址相对固定的静态网页比较适合被Google索引(怪不得很多大网站的邮件列表归档和BLOG按日期归档的文档很容被搜的到),因此很多关于面向搜索引擎 URL设计优化(URI Pretty)的文章中提到了很多利用一定机制将动态网页参数变成像静态网页的形式:
比如可以将:
http://phpunixman.sourceforge.net/index.php?mode=man¶meter=ls
变成:http://phpunixman.sourceforge.net/index.php/man/ls
实现方式主要有2种:
把URI地址用作参数传递:URL REWRITE
最简单的是基于各种WEB服务器中的URL重写转向(Rewrite)模块的URL转换:
这样几乎可以不修改程序的实现将 news.asp?id=234 这样的链接映射成 news/234.html,从外面看上去和静态链接一样。Apache服务器上有一个模块(非缺省):mod_rewrite:URL REWRITE功能之强大足够写上一本书。
当我需要将将news.asp?id=234的映射成news/234.html时,只需设置:
RewriteRule /news/(\d+)\.html /news\.asp\?id=$1 [N,I]
这样就把 /news/234.html 这样的请求映射成了 /news.asp?id=234
当有对/news/234.html的请求时:web服务器会把实际请求转发给/news.asp?id=234
而在IIS也有相应的REWRITE模块:比如ISAPI REWRITE和IIS REWRITE,语法都是基于正则表达式,因此配置几乎和apache的mod_rewrite是相同的:
比对于某一个简单应用可以是:
RewriteRule /news/(\d+)\.html /news/news\.php\?id=$1 [N,I]
这样就把 http://www.chedong.com/news/234.html 映射到了 http://www.chedong.com/news/news.php?id=234
一个更通用的能够将所有的动态页面进行参数映射的表达式是:
把 http://www.myhost.com/foo.php?a=A&b=B&c=C
表现成 http://www.myhost.com/foo.php/a/A/b/B/c/C。
RewriteRule (.*?\.php)(\?[^/]*)?/([^/]*)/([^/]*)(.+?)?$1(?2$2&:\?)$3=$4?5$5: [N,I]
以下是针对phpBB的一个Apache mod_rewrite配置样例:
RewriteEngine On RewriteRule /forum/topic_(.+)\.html$ /forum/viewtopic.php?t=$1 [L] RewriteRule /forum/forum_(.+)\.html$ /forum/viewforum.php?f=$1 [L] RewriteRule /forum/user_(.+)\.html$ /forum/profile.php?mode=viewprofile&u=$1 [L]
这样设置后就可以通过topic_1234.html forum_2.html user_34.html这样的链接访问原来的动态页面了。
通过URL REWRITE还有一些好处:
mod_rewrite和isapirewrite基本兼容,但是还是有些不同,比如:isapirewrite中"?"需要转义成"\?",mod_rewrite不用,isapirewrite支持 "\d+" (全部数字),mod_rewrite不支持
- 隐藏后台实现:这在后台应用平台的迁移时非常有用:当从asp迁移到java平台时,对于前台用户来说,根本感受不到后台应用的变化;
- 简化数据校验:因为像(\d+)这样的参数,可以有效的控制数字的格式甚至位数;
比如我们需要将应用从news.asp?id=234迁移成news.php?query=234时,前台的表现可以一直保持为 news/234.html。从实现应用和前台表现的分离:保持了URL的稳定性,而使用mod_rewrite甚至可以把请求转发到其他后台服务器上。
基于PATH_INFO的URL美化
Url美化的另外一个方式就是基于PATH_INFO:
PATH_INFO是一个CGI 1.1的标准,经常发现很多跟在CGI后面的"/value_1/value_2"就是PATH_INFO参数:
比如:http://phpunixman.sourceforge.net/index.php/man/ls 中:$PATH_INFO = "/man/ls"
PATH_INFO是CGI标准,因此PHP Servlet等都有的支持。比如Servlet中就有request.getPathInfo()方法。
注意:/myapp/servlet/Hello/foo的 getPathInfo()返回的是/foo,而/myapp/dir/hello.jsp/foo的getPathInfo()将返回的 /hello.jsp,从这里你也可以知道jsp其实就是一个Servlet的PATH_INFO参数。ASP不支持PATH_INFO
PHP中基于PATH_INFO的参数解析的例子如下:
//注意:参数按"/"分割,第一个参数是空的:从/param1/param2中解析出$param1 $param2这2个参数
if ( isset($_SERVER["PATH_INFO"]) ) {
list($nothing, $param1, $param2) = explode('/', $_SERVER["PATH_INFO"]);
}
如何隐蔽应用:例如 .php,的扩展名:
在APACHE中这样配置:
<FilesMatch "^app_name$">
ForceType application/x-httpd-php
</FilesMatch>
如何更像静态页面:app_name/my/app.html
解析的PATH_INFO参数的时候,把最后一个参数的最后5个字符“.html”截断即可。
注意:APACHE2中缺省是不允许PATH_INFO的,需要设置 AcceptPathInfo on
特别是针对使用虚拟主机用户,无权安装和配置mod_rewrite的时候,PATH_INFO往往就成了唯一的选择。
OK,这样以后看见类似于http://www.example.com/article/234这样的网页你就知道可能是 article/show.php?id=234这个php程序生成的动态网页,很多站点表面看上去可能有很多静态目录,其实很有可能都是使用1,2个程序实现的内容发布。比如很多WIKIWIKI系统都使用了这个机制:整个系统就一个简单的wiki程序,而看上去的目录其实都是这个应用拿后面的地址作为参数的查询结果。
利用基于MOD_REWRITE/PATH_INFO + CACHE服务器的解决方案对原有的动态发布系统进行改造,也可以大大降低旧有系统升级到新的内容管理系统的成本。并且方便了搜索引擎收录入索引。
附:如何在IIS上利用PHP支持PATH_INFO
PHP的ISAPI模式安装备忘:只试成 php-4.2.3-Win32
解包目录
========
php-4.2.3-Win32.zip c:\php
PHP.INI初始化文件
=================
复制:c:\php\php.ini-dist 到 c:\winnt\php.ini
配置文件关联
============
按照install.txt中的说明配置文件关联
运行库文件
==========
复制 c:\php\php4ts.dll 到 c:\winnt\system32\php4ts.dll
这样运行后:会发现php把PATH_INFO映射到了物理路径上
Warning: Unknown(C:\CheDong\Downloads\ariadne\www\test.php\path): failed to create stream: No such file or directory in Unknown on line 0
Warning: Unknown(): Failed opening 'C:\CheDong\Downloads\ariadne\www\test.php\path' for inclusion (include_path='.;c:\php4\pear') in Unknown on line 0
安装ariadne的PATCH
==================
停止IIS服务
net stop iisadmin
ftp://ftp.muze.nl/pub/ariadne/win/iis/php-4.2.3/php4isapi.dll
覆盖原有的c:\php\sapi\php4isapi.dll
注:
ariadne是一个基于PATH_INFO的内容发布系统,
PHP 4.3.2 RC2中CGI模式的PATH_INFO已经修正,照常安装即可。
参考资料:
URL Rewrite文档:
ISAPI REWRITE文档
IIS的ISAPI REWRITE下载(免费)
http://httpd.apache.org/docs/mod/mod_rewrite.html
http://httpd.apache.org/docs-2.0/mod/mod_rewrite.html
搜索引擎友好的URL设计
http://www.sitepoint.com/article/485
说不定这个URL原来就是articel.php?id=485
一个基于PATH_INFO的开源内容管理系统
http://typo3.com/
Google的PageRank算法说明:
http://pr.efactory.de/
相关推荐
搜索者---A-Search-Engine Seeker 是一个搜索引擎的实现。 使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB...
### Google的秘密调料揭示:搜索引擎优化的衰亡与重生 #### 背景介绍 随着互联网技术的迅猛发展,搜索引擎已成为人们获取信息的主要渠道之一。在这样的背景下,如何让自己的网站或内容能够在众多搜索结果中脱颖而出...
### Google搜索引擎优化(SEO)入门指南 #### 一、引言 随着互联网的快速发展,搜索引擎已成为用户寻找信息的重要工具之一。对于网站拥有者而言,如何让自己的网站在搜索引擎中获得更好的排名,从而吸引更多的访问...
The Anatomy of a Large-Scale Hypertextual Web Search Engine(论文中英文对照),google创始人写的关于google技术的论文,适合SEO和研究搜索技术的用户
hibernate-search-engine-4.1.0.CR3.jar hibernate-search-engine-4.1.0.CR3.jar
Mini-Search-Engine 迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。 关键技术 1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始...
文章《The Anatomy of a Large-Scale Hypertextual Web Search Engine》(以下简称《Anatomy》)深入介绍了Google搜索引擎的设计理念和技术细节,这是一款能够高效抓取网页并建立索引的大型搜索引擎。 #### 二、...
这个就是译文原文了。 博文链接:https://flyyouth.iteye.com/blog/179868
【Python谷歌应用引擎】(Python Google App Engine)是谷歌提供的一款强大的云计算平台,它允许开发者使用Python语言构建、部署和管理Web应用程序。该平台提供了全面的基础设施,包括数据存储、身份验证、任务队列和...
请注意,对于“谷歌站点搜索”(Google Site Search),是需要付费的。API密钥来自CSE(https://cse.google.com/manage/all)。在这里,用户需要先付费,否则无法看到API密钥。付费链接:...
google-app-engine-ranklist-ndb google-app-engine-ranklist-ndb是来自的分支项目 对原始代码进行了以下更改 使用ndb代替原始数据存储 带有播放器名称的get_score函数 基本测试代码 该项目包括原始存储库中的示例...
【搜索链接淘特搜索引擎共享版-tot-search-engine】是一个针对电商平台淘特(TaoTeJia)设计的搜索引擎工具,其主要目标是帮助用户更高效、精准地在淘特平台上找到所需的商品信息。这款共享版可能意味着它允许多个...
在"Creating A Simple Search Engine In PHP.html"文件中,详细步骤和代码示例应该会进一步解释这些概念,并指导你如何实际操作。通过实践这个项目,你不仅可以掌握PHP基础,还能深入了解搜索引擎的工作原理,这对...
com-hadoopbbs-searchengineAutomatically exported from code.google.com/p/com-hadoopbbs-searchengine此项目已合并到
标题“google-scholar-search-engine”指的是一个专为Firefox浏览器设计的Google学术搜索引擎插件。这个插件的主要目的是为了方便用户在Firefox中直接进行高效的学术搜索,无需离开浏览器或访问Google Scholar的官方...
淘特搜索引擎共享版_tot_search_engine.rar是一个可用作毕业设计或课程设计的JSP或Java源码文件包。这个文件包含了一个完整的搜索引擎系统,可以用于开发和学习目的。通过使用这个文件包,你可以快速搭建一个基于...