`
isiqi
  • 浏览: 16704007 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

隐性语义检索(LSI)和搜索引擎优化 【转www.chinageren.com 】

阅读更多

最近,当人们用“paypal ”在Google中进行搜索,排名第一位的却不再是国际知名网络支付公司Paypal的官方网站Paypal.com了。这一现象显然反映了Google正在加大对那些采用了“异常”的回向链接文字(锚文字)的惩罚力度。虽然作为典型例子的Paypal在Google中出现的排名问题已经得到了纠正,但仍有成千上万名不见经传的小网站们正遭受着同样的困扰:那就是即使用公司名称在Google中搜索,网站的排名都成问题,更不用说用原来排名一直很好的关键词了。对于搜索引擎优化人员来说,最重要的是了解两点:一是Google是怎样实施锚文字处罚的,二是当我们采用不同变化形态的锚文字时,隐含语义检索(LSI)是怎样确保锚文字的这种变化不会对链接推广活动的效果造成影响的。

  一、锚文字处罚

  去年就有不少人已经注意到这个现象了:对于一个在很短时间内就建立了大量回向链接的网站来说,它只能在象雅虎这样的一些大搜索引擎中得到它所期望的排名效果,而对于Google来说,这一链接推广行为却无法奏效。原因在于:Google已经在搜索算法中增加了一些过滤特性,可以把那些感觉具有“不正常”回向链接结构的网站从其搜索结果中剔除出去。“异常锚文字处罚”就是其中的一个特性。

  使用描述性词语作为文字内容,无论对于一个网站内部链接还是外部链接的链接文字,也就是我们通常所说的锚文字,都无疑是最为搜索引擎优化人员所推崇的做法。但有很多优化人员在选择锚文字内容时,总是只围绕一个主要关键词,尤其是如果这个关键词可以吸引比网站次关键词多的多的访问量的时候,这种做法尤为突出。此外,网站能够获得高质量的回向链接十分不容易,这也就成了为什么优化人员在对网站进行优化时,不会漏过一个在其锚文字中加入该主要关键词的机会的主要原因。

  只要锚文字中的关键词和网站内容高度相关,这种做法在我们来看应该是无可厚非的。但遗憾的是,“千篇一律”的链接内容对搜索引擎来说是有问题的。因为在搜索引擎看来,最自然的链接文字应该是多种多样的,例如公司名称、关键词、关键词同义词、网站地址、甚至“请点击此处进入”诸如之类的锚文字内容才最正常。但如果所有的外部链接文字内容都是“网站主关键词”,那么很显然,在搜索引擎的搜索算法机制看来,这些链接绝对不是通过正常渠道得来的。

  二、什么是隐含语义检索(LSI)

  LSI是一种信息检索技术,通过统计手段,LSI可以把虽然不含查询字串但却相关的文档提取出来,经过转换后,相关的词汇会经由文件所包含的内容而产生关连,和“概念检索”有相同之处。使用LSI技术就意味着搜索引擎在检索网页时,试图把某些查询术语和其潜在概念联系起来。例如,把iMac和苹果公司的电脑联系起来。

  三、LSI的工作原理

  作为一种IR向量空间技术,LSI被证实比在Salton的SMART系统中使用的传统向量空间技术性能更好。其工作原理是利用矩阵理论中的“奇异值分解(SVD)”技术,将词频矩阵转化为奇异矩阵:首先从全部的文档集中生成一个标引项-文档矩阵,该矩阵的每个分量为整数值,代表某个特定的标引项出现在某个特定文档中次数。然后将该矩阵进行奇异值分解,较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射到一个子空间中,在该空间中,来自标引项-文档矩阵的语义关系被保留,同时标引项用法的变异被抑制。最后,可以通过标准化的内积计算来计算向量之间的夹角余弦相似度,再将文档按与查询的相似度降序排列。

  四、LSI信息检索技术对搜索引擎索引的价值

  对一个文档集合进行关键词查询的常规途径应用的是会计思想,非常简单直接,需要做的就是查看文档中包不包含给定的词语。根据给定的关键词和短语,按顺序查阅每个文档的内容,将内容中不包含这些关键词和短语的文档剔除出去,然后将其余的满足条件的文档通过一些排名系统进行排列,并建立一个结果数据集。每个文档在搜索引擎的算法面前都是独立的,文档之间并无任何形式的依赖关系,搜索算法也仅仅是根据每个文档的内容对其与关键词之间的相关性进行评估的。

  LSI给文档检索过程增加了一个重要步骤。这种信息检索技术除了能够记录一个文档包含哪些关键词之外,还可以把一个网站的文档集合作为一个整体来检查,看看还有哪些文档包含这些关键词。LSI认为,若文档含有大量的共同单词,则可表明这些文档在语义上具有很大的一致

或相近性,反之则说明这些文档在语义上的关系较远。这种方法虽然简单,却能够和我们人类在阅读文章内容,然后对一个文档集合进行归类的方式上有着惊人的吻合。虽然LSI检索算法无法理解单词的具体含义,但它对信息的这种检索方式却能够让它看起来似乎有惊人的智能。

  对于一个通过LSI技术检索的数据库,当用户查询时,搜索引擎会查看它对每个文档内容的单词计算出的相似性值,然后把它认为最符合用户查询要求的文档返回给用户。由于即使不具有共同的关键词,但根据LSI分析的结果,两个文档之间在语义上很接近,所以采用LSI技术的搜索结果无需严格匹配,只需在语义上与查询词语匹配即可。当对用户查询的某一查询条件没有包含关键词的文档与之严格匹配时,LSI往往返回一些虽然根本不包含查询关键词,但内容却与查询条件相关的文档搜索结果。

  我们来看一个实例:假如我们已经通过LSI技术对一些数学方面的文章进行过检索,又假如“n维”、“流形”“拓扑”这三个术语在这些文章中一同出现过多次,那么搜索引擎算法将会注意到这三个术语在语义上具有相近性。当用户查询“n维流形”时,搜索引擎不但返回一组包含“n维流形”这个查询词语的文章,还会把那些虽然不包含这个词语,但含有“拓扑”这个词的文章结果一并返回给用户。这是因为,虽然搜索引擎对数学一无所知,但通过对大量文章的检查已经教会它知道这三个术语之间是有关联的。所以它利用这一信息对搜索结果进行了拓展,改进了搜索效果。

  五、LSI对搜索引擎优化的重要性

  在了解了LSI的基本工作原理之后,再回过头来看被一些人视为真理的所谓“若不在回向链接文字中包含网站的主要关键词,则无疑是对这条回向链接的浪费”的观点,我们可以发现这种说法是没有根据的。也许在不久的将来,隐含语义检索技术会在那些主要的搜索引擎中得到更为全面的应用,而隐含语义检索的这种理念将可以证实上面那种“链接中必须包含主关键词”的说法是错误的。

  当用户在用搜索引擎查询信息时,隐含语义检索可以帮助人们克服“词汇不匹配”的问题。单个的词语有时往往无法提供对于一个文档的概念含义的可靠证据。例如,一个和“laptop”高度相关的网页可能根本不会使用“notebook”这个词,但我们都清楚,“laptop”本身就有“notebook”的意思。对于任何给定的查询主题,LSI技术可以利用统计技术创建一个语义分析。在实践中,这就意味着一个网页上即使并没有包含某特定关键词,它也可以被认为是和那个关键词具有相关性。就拿上面的例子来说吧,即使网页里从来没有出现过“notebook”这个词,一旦LSI技术分析结果决定了“notebook”在语义上和“laptop”这个单词具有相关性,那么搜索引擎一样会认为这个网页和“notebook”具有相关性。

  这一原理同样适用于回向链接。即使回向链接的锚文字中没有包含网站的主要关键词,只要其中包含了同义或相关的词语,搜索引擎一样会认为这条链接和网站的主关键词有着一定程度的关联,从而给这条外部链接一定的权值。

  六、怎样知道我的关键词和哪些概念关联

  想要知道Google对你的查询关键词怎么想吗?很简单,只要使用Google的语义查询功能,即在查询关键词前加一个“~”符号,就可以看到和你的查询词语相关的一些词语。例如在Google搜索框中输入“~Soda”,出现在搜索结果中首页位置的是百事可乐、可口可乐这些大公司,而输入“~phone”出现在搜索结果第一位的是诺基亚的网站。同样,要想看到Google的正常搜索结果,只需去掉“~”符号即可。

  七、链接发展的最佳实践:变换链接文字

  搜索引擎业界普遍猜测LSI技术已在Google搜索中得到应用。其实在搜索引擎论坛中一直有着类似的传言,即Google在其最新的搜索排名算法更新中加大了对LSI隐含语义搜索技术的应用比例。这种说法的根据是:Google已将这一技术应用到其广告服务中有一段时间了,用来决定AdSense服务的广告内容。目前种种迹象似乎表明Google同样把这一技术理念应用到了搜索算法中,借以提高搜索服务的质量。

  倘若Google确实采用了这一信息检索新技术,而且随着那些被搜索引擎认为采用了“不正常”锚文字的网站遭到处罚的案例的增多,我们不难看出,随着搜索引擎在搜索算法上的不断更新和完善,即使针对一个关键词,但采用该关键词的多种不同形式来组织成链接内容,也有可能触犯

搜索引擎相当发达的惩罚机制。因此我们有理由相信,对网站实施搜索引擎优化的目标已经不能再象以往那样锁定在一个关键词身上,正确的做法应该是针对一组语义相关的关键词来组织链接文字内容。可以根据网站的某一主要关键词,并以该关键词及其同义关键词作为优化对象,对网站的一些页面围绕这些关键词而不只是主关键词进行适当的优化。在和其它网站交换链接时,也不要只用网站的主关键词作为锚文字内容,而是围绕该关键词的各种变化形式和同义词撰写锚文字。

分享到:
评论

相关推荐

    Lsi.rar_LSI LINGPIPE_lsi_lsi...java

    在`Lsi.java`文件中,我们可以预期看到上述步骤的实现,可能还包括错误处理、性能优化和日志记录等内容。开发者可能还针对特定任务进行了额外的优化,例如通过调整LSI的维度来平衡计算成本和主题解释的准确性。 总...

    VMW-ESX-6.5.0-lsi_mr3-6.913.05.00-4817324.zip

    Driver name and version:lsi-mr3-6.913.05.00-1OEM.650.0.0.4598673 Compatible ESX version: VMware ESXi 6.5 Controller Firmware Package:24.19.0-0022 Dependencies: None Bugs fixed (compared to earlier ...

    LSI_MegaSAS_6.506.xx

    LSI(LSI Logic)是一家知名的半导体和存储解决方案供应商,其MegaRAID产品线广泛应用于服务器和存储系统中,提供了高效的数据管理和保护功能。 "硬盘历史另库仑定大器晚成别加别墅持"这部分描述可能稍显模糊,但...

    LSI RAID命令行使用工具storcli .pdf

    LSI RAID控制器在服务器存储和数据保护领域应用广泛,而storcli是其命令行工具,允许管理员执行管理、配置和故障排查等任务。LSI(现在被Broadcom收购)是提供高性能存储解决方案的供应商。 在本文档的描述中提到,...

    VMW-ESX-6.7.0-lsi-mr3-7.706.08.00-offline-bundle-11327181.zip

    VMW-ESX-6.7.0-lsi_mr3-7.706.08.00-offline_bundle-11327181.zip

    揭秘搜索引擎(Understanding.Search.Engines)

    3. **LSI/LDA主题模型**:潜在语义索引(Latent Semantic Indexing)和潜在狄利克雷分配(Latent Dirichlet Allocation)都是高级文本分析技术,可以帮助搜索引擎更好地理解文档的主题结构,进而提升搜索精度。...

    LSI MegaRAID阵列卡模拟界面.chm

    LSI MegaRAID阵列卡模拟界面.chm

    25 LSI MegaRAID高级技术和软件.rar

    LSI MegaRAID技术是一种广泛应用于服务器和存储系统的高级RAID(冗余磁盘阵列)解决方案。MegaRAID是LSI公司(现已被Avago Technologies收购,后并入Broadcom公司)开发的一系列硬件和软件产品,旨在提供高效、可靠...

    Display Driver LSI_LINE UP 2006.0213.pdf

    在文件中,我们可以看到一系列以LC758开头的数字和字母组合,这表明它们是一系列显示驱动器LSI(Large-Scale Integration,大规模集成电路)的型号。这些显示驱动器由三洋电机有限公司半导体公司所开发和生产,文件...

    lsi2208_w2k12_6.504.4.exe

    LSI SAS2108/2208 windows2016 2019驱动,适用华为 联想等多款服务器,请需要的下载

    LSI raid 模拟器

    LSI(Liberating Storage Gateway)RAID模拟器是一款专为IT专业人员设计的工具,旨在帮助用户在不实际操作硬件的情况下,理解、学习和掌握LSI RAID控制器的工作原理和管理方式。通过这款模拟器,用户可以在安全的...

    LSI携手ARM推出多核通信处理器.pdf

    LSI公司与ARM合作推出的多核通信处理器标志着ARM架构在通信处理器领域的重大突破,打破了x86和PowerPC等传统架构的主导地位。ARM处理器在移动设备市场占据主导,但服务器和通信设备市场仍是x86和PowerPC的领地。LSI...

    BSC014N04LSI INFINEON 英飞凌 电子元器件芯片.pdf

    1. **优化的同步整流设计**:BSC014N04LSI特别适合在高效率电源转换系统中进行同步整流,以提高整体系统的能效。 2. **集成的单片肖特基样二极管**:芯片内部集成了一个类似于肖特基二极管的结构,简化了电路设计并...

    SVD and LSI Tutorial 4: Latent Semantic Indexing (LSI) How-to Calculations

    此外,本教程会揭露关于LSI在搜索引擎优化(SEO)中的常见误解和神话,并指导如何避开那些声称提供基于LSI服务的“伪科学”搜索引擎营销者。 【标签】 "svd lsi lsa" 表示这篇文档将会涉及奇异值分解(SVD)、潜在...

    BSC010N04LSI INFINEON 英飞凌 电子元器件芯片.pdf

    - **优化的同步整流**:BSC010N04LSI特别适合在高效率电源转换系统中作为同步整流器使用。 - **内置肖特基二极管**:芯片内部集成了肖特基样二极管,减少了外部组件的需求,简化了电路设计。 - **极低的导通电阻*...

    LSI推出新型Tarari内容处理器系列.pdf

    此外,所有LSI Tarari T1000、T2000和T2500内容处理器都包含了DPI(深度包检测)引擎,这是嵌入在LSI Axxia通信处理器中的一个重要组件。DPI引擎通过使用通用API和规则语法,允许在多个平台和应用之间最大限度地重用...

    LSI收购Infineon硬盘驱动半导体业务.pdf

    【半导体技术】 半导体技术是电子行业...半导体技术的不断创新和优化,对于推动电子设备的能效提升、降低成本、提升用户体验具有重要意义。同时,国际企业在中国市场的布局也反映了中国在全球半导体产业中的重要地位。

    华为新一代网络产品集成LSI SP2600 Star Pro媒体处理器.pdf

    总的来说,华为新一代网络产品集成的LSI SP2600 Star Pro媒体处理器是现代网络设备中的关键组件,它在数据处理和多媒体服务方面发挥着重要作用,而相关的专业指导和参考文献则为开发和优化这类设备提供了宝贵的资源...

    BSC014NE2LSI 英飞凌 infineon 电子元器件芯片.pdf

    在此背景下,英飞凌Infineon作为全球领先的半导体解决方案供应商,其推出的BSC014NE2LSI电子元器件芯片凭借其优越的性能和可靠性,成为了设计高性能Buck转换器等电力电子设备不可或缺的关键组件。本文将详细介绍BSC...

    BSC010NE2LSI 英飞凌 infineon 电子元器件芯片.pdf

    BSC010NE2LSI 英飞凌 Infineon 电子元器件芯片 BSC010NE2LSI 是一款由英飞凌(Infineon)公司生产的 Power-MOSFET 芯片,主要应用于高性能 Buck 转换器。该芯片具有优异的性能和可靠性,满足了 JEDEC 的标准。 ...

Global site tag (gtag.js) - Google Analytics