`
asun
  • 浏览: 10231 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

google怎么做相似网页算法

阅读更多
使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?

利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:

(1)   用户选定某个页面A,希望查看相关网页;

(2)   首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说B和C页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;

(3)   第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};

(4)   第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.

(5)   第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出


看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?
分享到:
评论

相关推荐

    数据挖掘18大算法实现以及其他相关经典DM算法

    PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接 HITS HITS...

    图片识别-感知哈希算法

    当用户上传一张图片,谷歌会使用感知哈希算法计算其指纹,然后与数据库中其他图像的指纹进行比对,找出相似或相同的图片。 8. **指纹验证**:在版权保护方面,感知哈希也被用来验证图像的原始性和完整性。通过比较...

    数据挖掘十大经典算法

    C4.5 是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)的核心算法 ID3 的改进算法。因此,基本上了解了一半决策树构造方法就能构造它。决策树...

    撬动地球的google

    - **谢尔盖·布林与拉里·佩奇**:作为Google的两位创始人,他们不仅拥有相似的文化背景(犹太人、来自前苏联),更重要的是他们都怀揣着改变世界的梦想。布林曾经表示:“我有一个疯狂的想法,就是要将整个网络都...

    做百度和GOOGLE的精美作弊页面

    例如,谷歌的Panda和Penguin算法就分别针对低质量内容和过度优化进行了严厉打击。因此,作为网站所有者,应避免使用这些作弊技术,转而专注于提供高质量、原创且用户友好的内容。遵循白帽SEO原则,如进行关键词研究...

    Google图片搜索原理.docx

    Google 图片搜索是一种基于图像内容的搜索引擎功能,它允许用户通过上传或输入图片链接来查找互联网上相似或相同的图片。这一技术的核心在于一种名为“感知哈希算法”(Perceptual Hash algorithm)的方法,该算法可以...

    人工智能大作业:关于计算文本相似度的深度神经网络模型与算法研究分析(BERT、SentenceBERT、SimCSE).zip

    首先,BERT是Google在2018年提出的一种预训练语言模型,它利用Transformer架构,实现了对文本的双向上下文理解。BERT通过掩码语言模型(Masked Language Modeling, MLM)和下一句预测(Next Sentence Prediction, ...

    百度(baidu)分词算法分析

    而 GOOGLE 显然是没有进行归并,而是将重复查询子串的权重增大进行处理。 最后,假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影 BT 下载”,百度的方法是将中文字符串中的英文当作一个整体...

    SEO 无外链做流量-花了8K买的教程

    10. TF/IDF算法:教程解释了Google如何通过TF/IDF算法判断文章原创性。TF-IDF算法通过考虑词频和反文档频率来提取文章的关键字词,并用于文章相似性的检索。 11. TF/IDF算法的局限性:虽然TF/IDF是一个广泛使用的...

    基于MFC界面做的图像拼接源码

    - **stitcher匹配算法**:这可能是Google的OpenCV库中的Stitcher类,它提供了一种自动图像拼接的方法。Stitcher类可以执行特征检测、匹配、几何变换估计和图像融合等一系列步骤。 - **模板匹配算法**:另一种可能...

    web mining的完整讲义资料

    1. PageRank算法:Google的成名算法,通过考虑网页之间的链接关系来评估其重要性,是Web结构挖掘的重要应用。 2. HITS(Hypertext Induced Topic Selection):考虑权威性和 hubness,用于识别网络中的权威页面和...

    Python-DiffMatchPatch是一种处理纯文本的多种语言高性能库

    这个库源自Google的一个开源项目,最初由Jonhnson Lee编写,现在支持多种编程语言,包括Python。在Python中,它提供了一套简单易用的API,帮助开发者高效地完成文本差异分析、匹配和修复任务。 1. **文本差异计算...

    用MATLAB做实验

    - **原理**:PageRank是谷歌搜索引擎排名的一种算法,基于网页之间的链接关系来评估网页的重要性。 - **MATLAB实现**:构建网页链接图并计算每个节点的PageRank值。 ##### 8. 指数函数 - **定义**:指数函数是一种...

    CCIR2011刘铁岩关于learning to rank的keynote

    因此,出现了基于链接分析的搜索引擎,如谷歌的PageRank算法,它通过计算网页之间的引用关系来评估网页的权威度。 - **Learning to Rank**:进入21世纪后,随着机器学习技术的快速发展,一种新的排名机制——Learning to ...

    Go-tiny-site-图片优化管理系统依赖于tiny对图片做优化处理

    WebP格式是一种由Google开发的现代图像格式,相比JPEG和PNG,它在保持相似视觉质量的同时,文件大小更小,是图片优化的理想选择。 系统允许自定义图片质量与尺寸的功能,意味着开发者可以根据特定需求平衡图片质量...

    Machine Learning with TensorFlow

    聚类则是将数据点根据某种相似性归为多个类别(簇),聚类算法并不需要事先知道各个类别的标签,常用于无监督学习。例如,将顾客根据购物行为的不同,分为不同的消费群体。 隐马尔可夫模型(Hidden Markov Model, ...

    基于多源数据融合的Java代码知识图谱构建方法研究.pdf

    实体相似性的比较也是提高检索准确性的关键技术,传统方法通常依赖于实体相似性来提升检索结果的排名。 知识图谱的构建不仅涉及到数据的提取和融合,还需要对知识图谱结构和内容的深入理解。在软件开发领域,代码...

    机器学习正在改变我们的工作与生活.pdf

    大會的三个主题演讲分别介绍了机器学习在微软的Kinect游戏机用户感应系统、谷歌的Google图片搜索系统、IBM的Watson自动问答系统中的应用。 机器学习与人工智能智能化是计算机发展的必然趋势。人类从事的各种智能性...

    C++网络爬虫项目

    而网页排序最重要的两个参考因素,一个是“内容相似 性”,即哪些网页是和用户的搜索意图密切相关的;一个是网页重要性,即哪 些网页是质量较好或相对重要的,而这往往可以从“链接分析”的结果中获 得。综合以上两...

    image-similarity:计算图片之间的相似度

    计算图片相似度的应用很广泛,如google、baidu、360等搜索引擎以图搜图的功能就是其典型应用。下面介绍介绍两种算法: 感知哈希算法(Perceptual hash algorithm) 那这种技术的原理是什么呢?根据Neal Krawetz博士...

Global site tag (gtag.js) - Google Analytics