/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/
搜索引擎web spam类型及防治策略(version 0.9)
中科院软件所 张俊林
url:http://sonata.iscas.ac.cn/zhjl
2005年7月
搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容,链接,信息隐藏三个方面来进行. 往页面加入大量关键词,以对用户不可见的颜色设置字体.这样用户使用不可见的字符串搜索就可能搜索到无关的网页.这种方式主要是基于内容的;分析Pagerank等搜索引擎使用的链接分析技术,构造很多其它网页,并在网页指向网页,这样网页的入度大量增加,导致链接分析失效,排名增高.这种方式主要是基于链接的.
Web spam对于搜索引擎有很大的危害:一方面降低搜索引擎的结果有效性.大量不相关页面占据重要排名位置.另外一个方面, 增加搜索引擎的无效索引,.这样对于每个查询都会耗费不必要的时间来处理这些垃圾索引.
Web spam 和email spam类似,对于某个网页是否真正的spam网页的判断多少是有主观因素的,这也是造成难以防治该类问题的一个核心难点.而目前大多数anti-spam技术都基于以下两个假设:假设一: 非网站一般不会有指向网站的链接(这个假设是有漏洞的,比如honey pot方式,但是大多数情况下是成立的).假设二. 网站往往会增加指向非网站的链接.
本文下面的内容讲述目前常用的一些方法以及比较常见的防治策略.首先需要定义几个概念:
概念一.目标网页----就是者采取一系列措施希望该网页能够在搜索引擎排名中得到比其应该得到的排名高的网页.
概念二:辅助排名网页---者为了提高某个或者某些网页的排名,需要引入大量的其它网页,这些网页的目的是帮助提高目标网页的排名.
一. 搜索引擎spam方法
(1) 内容.目前搜索引擎对于内容相关的判断基本上是基于信息检索领域的TF*IDF模式.TF指的是一个单词在文章中出现的频度,IDF指的是有多少个不同的文章中出现过该词汇.一般来说TF越大,分值越高.IDF越小分值越高,也就是说越少的文章出现过这个词汇,那么IDF分值越高.本质上IDF是衡量词汇权重的一个经典方法.对于者来说IDF基本上是不可控制的,但是TF却是可以操控的.比如通过大量复制词汇并隐藏其可见性可以提高TF值,从而增加搜索引擎排名.另外,搜索引擎对于内容权重的衡量还考虑词汇出现位置,通常考虑的词汇位置包括:文本正文,文本标题,meta tag,URL链接文字以及URL文字.一般文本标题,URL链接文字以及URL文字的权重会比较高.所以者通过在文章标题或者URL链接文字增加词汇来提高排名.这里的URL链接文字不是目标页面包含的链接的文字,而是指向目标页面的链接上的文字.因为一般认为指向目标页面的链接文字是一个摘要性的描述,其准确性比较高,所以权重设定比较大.URL文字指的是在URL中加入词汇比如:www.buy-computer-cheaper.com/not-expensive.htm.内容一般采取以下方式:内容大量重复,提高TF值;在页面加入大量与主题无关的词汇,这样搜索者输入任何词汇都有可能搜索到页面.在有效信息中隐藏词汇,比如将一篇新闻报道文章句子中插入词汇,这种情况比较难以发现.内容拼接,从不同的信息来源摘取不同的句子拼凑成正文,这样只要查询出现句子包含单词就会检索到这篇文章.
(2) Honey pot:网页作者发布有价值信息比如介绍某项技术的技术文章,但是在发布的信息里面隐含指向页面的隐藏链接,这样通过网页本身内容的价值来诱导其它网站增加指向该页面的链接从而间接增加页面的排名(比如本文标题附近的联接http://sonata.iscas.ac.cn/zhjl 以及此处的链接引用,呵呵).比如往blog站点,BBS站点,留言簿或者wiki等可以任意发言的站点增加评论.在发表的评论里面增加指向目标页面的链接,这样会间接增加目标页面的pagerank排名.根据发表评论类型可以分为以下两种:一种是直接发广告性质的与主题无关评论,这个我们经常在BBS或者留言版上看到.一种是评论与主题相关,但是在评论中隐藏无法看到的链接信息.这种情况一般比较难以发现.
(3) 组织spam farm.者建立若干网站,通过精心构建网页之间的链接关系来通过大量辅助页面提高目标页面的排名.
(4) CLOAKING.一般搜索引擎的页面抓取器会定期抓取站点页面,同时会首先访问robot.txt协定文件.者通过在robots.txt做手脚或者记住主要搜索引擎页面抓取器的IP地址来识别搜索引擎,识别之后诱导搜索引擎索引的内容和网站本身的内容不同.
(5) 购买过期域名.过期域名存在大量指向这个域名的链接信息.者通过购买过期域名来获得这些链接信息来提高排名.
(6) 将网页提交到雅虎等目录站点.熟练的者可以通过欺骗目录编辑,使得网页被目录站点收录,一般目录站点的排名很高,所以这样可以有效提高目标页面的排名.
(7) 在目标页面中增加指向重要或者著名网站的链接.这样有可能欺骗搜索引擎目标页面是高质量的索引页面.
(8) 多个域名DNS解析到同一IP地址.因为搜索引擎针对同一域名内链接做过调整,所以者申请多个不同域名但是映射到同一IP.这样来欺骗搜索引擎是不同站点的链接.
(9) 通过页面自动重定向来隐藏页面.
(10) 隐藏文字或者链接.通过设定文字或者链接的颜色为背景色来使得这些文字或者链接对于读者不可见.
(11) 交换链接.者合作交换链接来增加排名.
对于spam farm来说,者通过以下方式可以达到最优:
(1) 单个者能够产生最高pagerank值的link spam方法:一个目标网页(希望排名提升),K个辅助排名网页,K个网页都有且只有一个链接指向目标网页,同样地目标网页也有每个辅助排名网页的一个链接.可以证明这种模式是目标网页通过获得的最大PAGERANK值.同时这个结构也保证只要有一个页面被索引则整个spam farm都能够被索引.只有这样,辅助排名网页采能起作用..对于这种方式可以通过发现这种link farm模式特点的方法来识别可能的网页.
(2) 两个者协作.多个者通过互相链接增加排名.最简单的情况是两个拥有spam farm的者合作,考虑以下几种方式:
a.两人的所有辅助排名网页都同时增加指向对方的目标网页链接.此时两个者的目标网页的pagerank值相等, 假设没有建立联系前各自的值为p和q.后其值等于(p+q)/2 .显然与未交换链接时候相比,原先分值高的比较吃亏,会将一部分分值转移到对方.
b.两人的目标网页互相指向.此时情况与a相同,不过两者建立链接数目减少.减少者人工维护精力.
c.两人的目标网页互相指向,但是将每人目标网页所有指向辅助排名网页的链接去处.此时两者的pagerank分值都有所增加.
(3)对于多个者的有效合作方式: a. 多个目标网页链接形成环形. b.多个目标网页链接形成全链接. 此时对于每个者来说pagerank值都得到提高,都比未合作前的最高值高.
二. anti-spam方法
(1) 人工方式
精度高,但是人工耗费太大,所以不现实.
(2) 半人工方式
半人工方式应该是目前使用比较多的方法,专业的搜索引擎技术公司里面往往会有一批所谓的anti-spam专家来对这些技术进行研究.目前比较通用的一个半人工防治策略如下:
1. 从所有站点随机选择若干站点.比如随机选择2000个站点.(也可以有其它类似的优化策略,比如选择知名度高的网站或者YAHOO等收录的网站作为优良网站的基点)
2. 从2000个站点里面人工判断哪些是优良的网站
3. 链接分析.基本假设是优良网站指向的网站也是优良的.此时可以采取不同的策略,比如优良网站经过K个链接所指向的都认为是优良的.也可以引入衰减因素,离初始优良网站越远的网站其优良性越小.
4. 对遍历过的网站优良性能做评价.此评价作为判断是否网页的依据.
(3) 自动方式
减少人工耗费,是anti-spam研究的目标和方向,但是目前技术对于有些方式很难达到完全自动识别.目前技术主要还是半人工的方式 . 可以自动实现的方式包括:
1. 基于内容的,比如针对标题,如果发现正文内容出现标题文字比例失调,比例太高或者没有出现过,则认为可能是网页.
2. 对于页面内容难以形成主题的页面也很有可能是页面.
3. 针对链接,如果发现可能的spam farm结构或者不正常的大量网站内部相互链接,则判定可能是网站
4. .对于机器自动生成的页面进行特征分析和自动发现.比如机器生成的链接往往很长,包含很多数字和连接符号等.
5. 大量不同域名映射到同一IP地址很有可能是网站.
6 .发现网页的入度,根据分布规律,极少数的网页有非常大量的联入,所以这些大量联入页面如果不是知名网站则很可能是网站.
Web anti-spam领域还是一个比较新的研究领域,经济利益不断驱动人们通过种种”优化”策略来提高网页的排名.所以web spam和anti spam是一个不断学习不断斗争的过程.对此有兴趣的朋友可以和我联系(junlin01 AT iscas dot cn )共同学习共同提高这个方面的技术知识.
分享到:
相关推荐
网络垃圾信息(Web Spam)检测是信息安全和搜索引擎领域的重要研究内容。随着互联网信息量的激增,垃圾网站和垃圾信息在搜索引擎结果中泛滥,严重影响了用户的信息检索质量。文章《Web Spam Detection: Principles ...
在互联网上,"web spam"(垃圾网页)是一种常见的问题,它指的是为了提高搜索引擎排名或诱导用户点击而使用不道德手段创建的网页。这些网页往往包含误导性信息,滥用关键词,或者使用隐藏文本等技术,对用户和搜索...
Web垃圾信息是指故意在网页中引入人工文本和链接以影响搜索引擎结果的行为。它不仅对搜索引擎构成重大威胁,还严重影响用户获取信息的质量和可靠性。本文将深入探讨Web垃圾信息的概念、起源、现状以及如何通过借鉴...
- **Web spam**:指利用不正当手段对搜索引擎排名结果进行操纵的行为,目的是为了吸引更多的流量,进而获得更多的经济利益。 - **Trust propagation**:通过信任的种子页面,根据链接关系将信任度传递给其他网页的...
本文将深入探讨搜索引擎的核心原理、优化策略以及与Hadoop和云计算的关联。 一、搜索引擎的基本原理 1. **爬虫技术**:搜索引擎首先依赖于网络爬虫,它们自动遍历互联网上的网页,抓取内容并建立索引。爬虫通过...
在IT领域,搜索引擎策略是一个关键的话题,涉及到如何有效地利用搜索引擎来提升在线可见度、吸引流量以及优化用户体验。本文将深入探讨搜索引擎的相关知识,包括搜索引擎的工作原理、搜索算法、关键词优化、网页排名...
【搜索引擎开题报告】 搜索引擎是互联网时代不可或缺的重要组成部分,它为...本开题报告将深入研究搜索引擎的关键技术,分析现有搜索引擎的优缺点,探索可能的改进策略,以期为搜索引擎的优化提供理论支持和实践指导。
"搜索引擎排名秘笈"这个压缩包文件显然包含了帮助网站优化(SEO)以提高在搜索引擎结果页面(SERP)上的排名的策略和技巧。下面我们将深入探讨搜索引擎排名的相关知识点。 首先,我们要理解搜索引擎的工作原理。...
【搜索引擎优化】,通常简称SEO,是互联网营销领域不可或缺的一部分,尤其对于企业网站而言,它是一种提高网站在搜索引擎自然搜索结果中排名的技术和策略。SEO的主要目标是通过优化网站的各个方面,使它更容易被搜索...
3. SEO与Web使用方式的演变同步,随着更多用户依赖搜索引擎寻找信息,优化网站以满足这些需求变得至关重要。 4. 通过对流量数据的分析,SEO能帮助企业改进业务流程,提高客户转化效率。 三、SEO的基本术语 - SEM...
7. **spam(滥用)**:指通过制造无用或低质量网页来操纵搜索引擎排名的行为,如创建大量重复内容的域名。搜索引擎不断升级算法以打击此类滥用行为。 8. **Static Page(静态网页)**:静态网页提供固定不变的内容...
- **定义**:WebSpam是指通过操纵网页链接或内容来欺骗搜索引擎的技术,目的是使某些网页在搜索结果中获得更高的排名。 - **检测方法**:通过分析网页的链接结构、内容特征以及行为模式来识别可能存在的WebSpam行为...
### 搜索引擎算法基本要素详解 #### 一、用户体验与广告优化 1. **站点弹窗广告**: 弹窗广告...通过关注用户体验、优化链接结构、提升内容质量以及合理利用百度产品等策略,可以有效地提升网站在搜索引擎中的表现。
SEO(Search Engine Optimization)搜索引擎优化,是提升网站在搜索引擎自然搜索结果中排名的一系列技术和策略。通过对网站内容、结构、代码、外部链接等多方面进行优化,可以提高网站的可见性和用户吸引力,从而...
标题:google搜索引擎体系结构PPT 描述:此文档为一份英文版PPT,深度剖析了谷歌搜索引擎的架构,包括其各个组成模块的功能与工作原理。 ### 核心知识点解析: #### Google搜索引擎架构概览(Anatomy of Google)...
SEO(搜索引擎优化)是提升网站在搜索引擎自然搜索结果中排名的一种技术手段,目的是为了增加网站的可见度和访问量。SEO工作主要涉及理解搜索引擎的工作原理,优化网站内容、结构和外部链接,以满足搜索引擎的抓取、...
通过模拟实验,作者证明了结合分类技术和链接分析的改进策略能够提升搜索引擎的排序效果,从而提供更精确的搜索结果。 总之,搜索引擎排序算法是人工智能在信息检索领域的核心技术,其发展不断推动着搜索引擎的优化...
搜索引擎优化(SEO)是提升网站在搜索引擎结果页排名的技术手段,其目的是为了吸引更多的自然流量。以下是关于如何优化网站以获得更好搜索引擎排名的一些关键知识点: 1. **页面主题优化**: - `<title>`标签至关...