/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
GOOGLE 的相似网页功能算法
中科院软件所 张俊林
time stamp: 2006年4月3日
我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?
GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:
(1) 用户选定某个页面A,希望查看相关网页;
(2) 首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说B和C页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;
(3) 第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};
(4) 第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.
(5) 第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出
看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?
分享到:
相关推荐
PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接 HITS HITS...
当用户上传一张图片,谷歌会使用感知哈希算法计算其指纹,然后与数据库中其他图像的指纹进行比对,找出相似或相同的图片。 8. **指纹验证**:在版权保护方面,感知哈希也被用来验证图像的原始性和完整性。通过比较...
10. TF/IDF算法:教程解释了Google如何通过TF/IDF算法判断文章原创性。TF-IDF算法通过考虑词频和反文档频率来提取文章的关键字词,并用于文章相似性的检索。 11. TF/IDF算法的局限性:虽然TF/IDF是一个广泛使用的...
Google 图片搜索是一种基于图像内容的搜索引擎功能,它允许用户通过上传或输入图片链接来查找互联网上相似或相同的图片。这一技术的核心在于一种名为“感知哈希算法”(Perceptual Hash algorithm)的方法,该算法可以...
1. PageRank算法:Google的成名算法,通过考虑网页之间的链接关系来评估其重要性,是Web结构挖掘的重要应用。 2. HITS(Hypertext Induced Topic Selection):考虑权威性和 hubness,用于识别网络中的权威页面和...
C4.5 是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)的核心算法 ID3 的改进算法。因此,基本上了解了一半决策树构造方法就能构造它。决策树...
首先,BERT是Google在2018年提出的一种预训练语言模型,它利用Transformer架构,实现了对文本的双向上下文理解。BERT通过掩码语言模型(Masked Language Modeling, MLM)和下一句预测(Next Sentence Prediction, ...
- **stitcher匹配算法**:这可能是Google的OpenCV库中的Stitcher类,它提供了一种自动图像拼接的方法。Stitcher类可以执行特征检测、匹配、几何变换估计和图像融合等一系列步骤。 - **模板匹配算法**:另一种可能...
Word2Vec是Google开发的一种词嵌入模型,它可以将每个单词表示为一个高维向量,使得具有相似意义的词在向量空间中距离相近。有两种主要的训练方法:Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW通过上下文...
- **谢尔盖·布林与拉里·佩奇**:作为Google的两位创始人,他们不仅拥有相似的文化背景(犹太人、来自前苏联),更重要的是他们都怀揣着改变世界的梦想。布林曾经表示:“我有一个疯狂的想法,就是要将整个网络都...
- **原理**:PageRank是谷歌搜索引擎排名的一种算法,基于网页之间的链接关系来评估网页的重要性。 - **MATLAB实现**:构建网页链接图并计算每个节点的PageRank值。 ##### 8. 指数函数 - **定义**:指数函数是一种...
HTTP/2协议在技术上相比于其前身HTTP/1.1做了许多改进。主要的更新包括二进制分帧层、多路复用、头部压缩、服务器推送等技术,这些技术旨在减少延迟、优化传输效率和提升性能。 2. HTTP/2的优势 HTTP/2的优势体现...
2. **Word2Vec**:gensim实现了Google的Word2Vec算法,它通过训练神经网络模型,将单词转化为连续的向量空间表示,使得语义相近的词在空间中的距离也相近。 3. **Doc2Vec**:作为Word2Vec的扩展,Doc2Vec可以将整个...
例如,谷歌的Panda和Penguin算法就分别针对低质量内容和过度优化进行了严厉打击。因此,作为网站所有者,应避免使用这些作弊技术,转而专注于提供高质量、原创且用户友好的内容。遵循白帽SEO原则,如进行关键词研究...
它基于Google的MapReduce编程模型,实现了分布式计算,使得处理海量数据成为可能。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,前者负责数据的存储,后者负责数据的计算。 二、...
"百度(baidu)分词算法分析" 在搜索引擎经济崛起的背景下,人们开始关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎...
这个库源自Google的一个开源项目,最初由Jonhnson Lee编写,现在支持多种编程语言,包括Python。在Python中,它提供了一套简单易用的API,帮助开发者高效地完成文本差异分析、匹配和修复任务。 1. **文本差异计算...
由Google推出的Word2Vec词向量模型,是自然语言领域中具有代表性的学习工具。它在训练语言模型的过程中将词典映射到一个更抽象的向量空间中,每一个词语通过高维向量表示,该向量空间中两点之间的距离就对应两个词语...
而网页排序最重要的两个参考因素,一个是“内容相似 性”,即哪些网页是和用户的搜索意图密切相关的;一个是网页重要性,即哪 些网页是质量较好或相对重要的,而这往往可以从“链接分析”的结果中获 得。综合以上两...
该框架由TensorFlow实现,能够通过学习大量人脸图像生成强大的人脸嵌入向量,使得相似人脸在向量空间中距离相近。 1. **facenet框架简介**: Facenet是由谷歌研究团队开发的深度学习模型,其主要目标是通过学习大...