此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性,如果网站想更好地被搜索引擎收录,网站设计除了面向用户友好(User Friendly)外,搜索引擎友好(Search Engine Friendly)的设计也是非常重要的。进入搜索引擎的页面内容越多,则被用户用不同的关键词找到的几率越大。在Google的算法调查一文中提到一个站点被Google索引页面的数量其实对PageRank也是有一定影响的。由于Google 突出的是整个网络中相对静态的部分(动态网页索引量比较小), 链接地址相对固定的静态网页比较适合被Google索引(怪不得很多大网站的邮件列表归档和BLOG按日期归档的文档很容被搜的到),因此很多关于面向搜索引擎 URL设计优化(URI Pretty)的文章中提到了很多利用一定机制将动态网页参数变成像静态网页的形式: 比如可以将: http://www.chedong.com/phpMan.php?mode=man¶meter=ls 变成: http://www.chedong.com/phpMan.php/man/ls
实现方式主要有2种:
把URI地址用作参数传递:URL REWRITE
最简单的是基于各种WEB服务器中的URL重写转向(Rewrite)模块的URL转换: 这样几乎可以不修改程序的实现将 news.asp?id=234 这样的链接映射成 news/234.html,从外面看上去和静态链接一样。Apache服务器上有一个模块(非缺省):mod_rewrite:URL REWRITE功能之强大足够写上一本书。
当我需要将将news.asp?id=234的映射成news/234.html时,只需设置: RewriteRule /news/(/d+)/.html /news/.asp/?id=$1 [N,I] 这样就把 /news/234.html 这样的请求映射成了 /news.asp?id=234 当有对/news/234.html的请求时:web服务器会把实际请求转发给/news.asp?id=234
而在IIS也有相应的REWRITE模块:比如ISAPI REWRITE和IIS REWRITE,语法都是基于正则表达式,因此配置几乎和apache的mod_rewrite是相同的:
比对于某一个简单应用可以是: RewriteRule /news/(/d+)/.html /news/news/.php/?id=$1 [N,I] 这样就把 http://www.chedong.com/news/234.html 映射到了 http://www.chedong.com/news/news.php?id=234
一个更通用的能够将所有的动态页面进行参数映射的表达式是: 把 http://www.myhost.com/foo.php?a=A&b=B&c=C 表现成 http://www.myhost.com/foo.php/a/A/b/B/c/C。 RewriteRule (.*?/.php)(/?[^/]*)?/([^/]*)/([^/]*)(.+?)? $1(?2$2&:/?)$3=$4?5$5: [N,I]
通过URL REWRITE还有一些好处:
- 隐藏后台实现:这在后台应用平台的迁移时非常有用:当从asp迁移到java平台时,对于前台用户来说,根本感受不到后台应用的变化;
- 简化数据校验:因为像(/d+)这样的参数,可以有效的控制数字的格式甚至位数;
比如我们需要将应用从news.asp?id=234迁移成news.php?query=234时,前台的表现可以一直保持为 news/234.html。从实现应用和前台表现的分离:保持了URL的稳定性,而使用mod_rewrite甚至可以把请求转发到其他后台服务器上。
基于PATH_INFO的URL美化
Url美化的另外一个方式就是基于PATH_INFO: PATH_INFO是一个CGI 1.1的标准,经常发现很多跟在CGI后面的"/value_1/value_2"就是PATH_INFO参数: 比如http://www.chedong.com/phpMan.php/man/ls,中:$PATH_INFO = "/man/ls"
PATH_INFO是CGI标准,因此PHP Servlet等都有的支持。比如Servlet中就有request.getPathInfo()方法。 注意:/myapp/servlet/Hello/foo的 getPathInfo()返回的是/foo,而/myapp/dir/hello.jsp/foo的getPathInfo()将返回的 /hello.jsp,从这里你也可以知道jsp其实就是一个Servlet的PATH_INFO参数。ASP不支持PATH_INFO,
PHP中基于PATH_INFO的参数解析的例子如下: //注意:参数按"/"分割,第一个参数是空的:从/param1/param2中解析出$param1 $param2这2个参数 if ( isset($_SERVER["PATH_INFO"]) ) { list($nothing, $param1, $param2) = explode('/', $_SERVER["PATH_INFO"]); }
如何隐蔽应用:例如 .php,的扩展名: 在APACHE中这样配置: <FilesMatch "^app_name$"> ForceType application/x-httpd-php </FilesMatch>
如何更像静态页面:app_name/my/app.html 解析的PATH_INFO参数的时候,把最后一个参数的最后5个字符“.html”截断即可。 注意:APACHE2中缺省是不允许PATH_INFO的,需要设置 AcceptPathInfo on
特别是针对使用虚拟主机用户,无权安装和配置mod_rewrite的时候,PATH_INFO往往就成了唯一的选择。
OK,这样以后看见类似于http://www.example.com/article/234这样的网页你就知道可能是 article/show.php?id=234这个php程序生成的动态网页,很多站点表面看上去可能有很多静态目录,其实很有可能都是使用1,2个程序实现的内容发布。比如很多WIKIWIKI系统都使用了这个机制:整个系统就一个简单的wiki程序,而看上去的目录其实都是这个应用拿后面的地址作为参数的查询结果。
利用基于MOD_REWRITE/PATH_INFO + CACHE服务器的解决方案对原有的动态发布系统进行改造,也可以大大降低旧有系统升级到新的内容管理系统的成本。并且方便了搜索引擎收录入索引。
附:如何在IIS上利用PHP支持PATH_INFOPHP的ISAPI模式安装备忘:只试成 php-4.2.3-Win32
解包目录 ======== php-4.2.3-Win32.zip c:/php
PHP.INI初始化文件 ================= 复制:c:/php/php.ini-dist 到 c:/winnt/php.ini
配置文件关联 ============ 按照install.txt中的说明配置文件关联
运行库文件 ========== 复制 c:/php/php4ts.dll 到 c:/winnt/system32/php4ts.dll
这样运行后:会发现php把PATH_INFO映射到了物理路径上 Warning: Unknown(C:/CheDong/Downloads/ariadne/www/test.php/path): failed to create stream: No such file or directory in Unknown on line 0
Warning: Unknown(): Failed opening 'C:/CheDong/Downloads/ariadne/www/test.php/path' for inclusion (include_path='.;c:/php4/pear') in Unknown on line 0
安装ariadne的PATCH ================== 停止IIS服务 net stop iisadmin ftp://ftp.muze.nl/pub/ariadne/win/iis/php-4.2.3/php4isapi.dll 覆盖原有的c:/php/sapi/php4isapi.dll
注: ariadne是一个基于PATH_INFO的内容发布系统, PHP 4.3.2 RC2中CGI模式的PATH_INFO已经修正,照常安装即可。
参考资料: URL Rewrite文档: ISAPI REWRITE文档 IIS的ISAPI REWRITE下载(免费) http://httpd.apache.org/docs/mod/mod_rewrite.html http://httpd.apache.org/docs-2.0/mod/mod_rewrite.html
搜索引擎友好的URL设计 http://www.sitepoint.com/article/485 说不定这个URL原来就是articel.php?id=485
一个基于PATH_INFO的开源内容管理系统 http://typo3.com/
Google的PageRank算法说明: http://pr.efactory.de/
|
相关推荐
《搜索引擎优化学习资料(英文)7 Days To Complete Search Engine Domination》是一份全面的SEO教程,由业内专家Brad Callen倾力打造。这份资源旨在帮助读者在短短七天内掌握搜索引擎优化的核心技巧,从而实现对...
网络爬虫通过遍历URL链接,抓取网页并存储到本地或远程服务器。 2. **预处理**:抓取的网页内容需要进行一系列预处理操作,如去除HTML标签、分词、去除停用词等。在Java中,Apache Lucene库提供了强大的文本分析...
- **URL结构**:URL应简洁明了,包含关键词,并避免过长或含有大量参数。 - **内容创作**:确保内容原创、高质量且具有独特价值,避免重复内容。 - **图片优化**:为图片添加适当的alt标签,帮助搜索引擎理解图片...
- **A/B测试与多变量测试**:通过对不同版本的内容或设计进行比较,可以找出最能吸引用户的设计方案。 **7. 持续优化与适应变化** - **跟踪搜索引擎算法更新**:搜索引擎不断调整其算法以提供更优质的搜索结果,...
《SEO Search Engine Optimization Bible 2nd Edition》是搜索引擎优化领域的一部权威著作,作者通过深入浅出的方式,全面解析了如何提升网站在搜索引擎中的排名,从而吸引更多的流量。这本书是SEO从业者、网络营销...
Drupal 6 Search Engine Optimization 是一本专注于提升Drupal 6网站搜索引擎优化(SEO)的书籍。它旨在帮助Drupal开发者、网站管理员和内容创作者理解并实施最佳的SEO策略,以提高网站在搜索引擎中的可见性和排名。...
- **网站结构优化**:探讨如何构建易于被搜索引擎爬虫索引的网站结构,包括URL结构、导航菜单设计等。 - **内容优化**:讲解如何创作高质量的内容来吸引搜索引擎和用户,包括元标签的编写技巧、关键词密度控制等。 -...
- **URL设计**:创建简洁明了且包含关键词的URL。 - **标题标签**:编写具有吸引力且包含目标关键词的标题。 - **元描述**:撰写简短而引人入胜的描述,以吸引点击。 - **HTML标题标签**:合理使用H1至H6标签,以...
其次,书中的重点会放在PHP代码优化上,包括如何编写对搜索引擎友好的代码结构,如合理的URL设计、元标签的使用、以及如何避免常见的SEO陷阱,如重复内容和页面加载速度问题。作者还会探讨如何利用PHP动态生成内容,...
**搜索引擎优化(Search Engine Optimization,SEO)** 搜索引擎优化是一种针对互联网内容进行优化的策略,旨在提升网站在搜索引擎结果页面(Search Engine Results Page, SERP)中的自然排名,从而增加网站的可见...
【北大tiny search engine(tse)搜索引擎源码】是北京大学开发的一款小型搜索引擎的源代码,它为学习和理解搜索引擎的工作原理提供了宝贵的参考资料。这个项目旨在帮助计算机科学和技术专业的学生以及对搜索引擎技术...
在这个“Python零基础学习篇-20flask搭建search engine(下)”中,我们将继续上一部分的工作,完成搜索引擎的关键组件和功能。 首先,我们需要了解Flask的基本结构。一个Flask应用由多个路由(routes)组成,每个...
本篇文章将深入探讨名为"sample-search-engine"的开源搜索引擎源码,揭示其背后的设计原理和技术实现。 一、搜索引引擎基础 搜索引擎的核心功能包括爬虫、索引构建、查询处理和排序。"sample-search-engine"应包含...
【标题】"searchengine-website" 是一个关于创建搜索引擎网站的项目,主要涉及JavaScript技术。这个网站旨在提供一个用户友好的界面,使访客能够轻松地进行搜索操作,并获得相关的搜索结果。 【描述】首先,作为...
在阅读和分析搜索引擎源码时,要关注各个模块的接口设计、数据结构的选择、算法的应用,以及性能优化策略。同时,了解搜索引擎的最新发展趋势,如深度学习在信息检索中的应用,也能帮助我们更好地理解和改进现有的...
根据提供的文件信息,我们可以从《搜索引擎优化入门指南》("Search Engine Optimization for Dummies")这本书中提炼出一些关于搜索引擎优化(SEO)的关键知识点。本书由Peter Kent编写,并由Wiley出版社出版,是一...
在"Creating A Simple Search Engine In PHP.html"文件中,详细步骤和代码示例应该会进一步解释这些概念,并指导你如何实际操作。通过实践这个项目,你不仅可以掌握PHP基础,还能深入了解搜索引擎的工作原理,这对...