文章内容相关性统计
左直拳
内容相关性我能想到的是比较两篇文章提取出来的标签。
每篇文章都可以提取出一些出现频率比较高的词语,就是标签,存放在数据库里。并且存放的时候已经按出现频率从高到低排列,频率高的标签保存在前面,低的在后面。假定标签表结构如下
PageTag
字段
|
含义
|
类型
|
Id
|
|
INT
|
TagId
|
标签ID
|
INT
|
PageId
|
文章ID
|
INT
|
则对于同一篇文章(PageId相同)来讲,出现频率高的标签,ID一定小于频率低的标签对应的ID。
比较的思路是,如果两篇文章,相同标签的频率越高,数量越多,则说明这两篇文章的相似度就越高。这好象涉及到一个叫“权重”之类的东西。不过我不知道什么叫权重。
找出某篇文章的相关文章的SQL语句如下:
SELECT a.PageId,SUM(b.Row) AS Weight FROM <place w:st="on"><city w:st="on">PageTag</city><state w:st="on"><span style="COLOR: blue">AS</span></state></place> a,
(SELECT TagId,ROW_NUMBER() OVER(ORDER BY Id DESC) AS Row
FROM PageTag
WHERE PageId=某篇文章的ID) AS b
WHERE a.PageId<>某篇文章的ID
AND a.TagId=b.TagId
GROUP BY a.PageId
结果就可以将文章和相应的相似度列出来了。Weight越大,相似度越高。
主要用了ROW_NUMBER(),并且ORDER BY Id DESC,所以频率越高的,ROW就越大,最后合计的SUM(Row)AS Weight就越大。同时,如果两篇文章相同的标签很多,合计数也跟着大,所以这个Weight应该可以反映权重。
注:这种算法在实际应用中效果不佳,除了提取出来的标签准确度不是很高外,算法本身也不太完善。比如说,一篇文章很长,提取出来的标签有10几个,而短的文章有的只有2、3个,这时候,长文章的标签权重普遍大于短文章的,统计出来就有偏差。
抛出我的吊,来吸引您的玉。
分享到:
相关推荐
在高能粒子物理领域,统计聚类的横向动量相关性分析是一项核心研究内容,它涉及粒子物理学和统计物理学的深入交叉。本文介绍的研究正是在这个交叉领域内进行的,其核心目的是评估高能强子碰撞产生的粒子群中,多个...
在研究方法上,文章运用了数学模型和计算机软件进行数据的统计分析,这不仅提升了分析效率,还使得分析结果更加客观。作者通过正态性检验、相关性分析等方法,对选定的股票市场指数进行实证分析,从而得出具有统计学...
本篇文章将详细讲解"MIC_mic算法_MIC_python_相关性分析"这一主题,以及如何利用Python实现MIC(Maximal Information Coefficient)算法进行相关性分析。 **一、MIC算法** Maximal Information Coefficient (MIC) ...
这篇文章主要涉及的是高中数学的一轮复习内容,特别是关于变量的相关性与统计案例的分析。这部分内容是数据分析和统计学的基础,对于理解数据背后的关联性和预测趋势有着重要作用。 首先,题目中提到了χ2检验,这...
协整检验是分析时间序列数据中长期均衡关系的一种统计方法,如果两个或多个非平稳的时间序列是协整的,那么它们之间存在某种长期的稳定关系。 3. Granger因果关系检验用于验证资产之间的单向或双向相关关系及其传导...
皮尔逊相关性分析是一种统计方法,用于度量两个连续变量之间的线性相关性。在Python编程语言中,我们可以利用强大的数据分析库,如NumPy、Pandas和SciPy,来轻松实现这一分析。本篇文章将深入探讨皮尔逊相关系数的...
本篇文章将深入探讨如何使用Python创建矩形热力图和相关性图,这两种图表在数据分析和机器学习领域尤为常见。 首先,我们要介绍的是矩形热力图。热力图是一种颜色编码的矩阵表示方法,用于显示数据的密度或强度。在...
《基于统计相关性与K-means的区分基因子集选择算法》 在生物信息学领域,尤其是癌症研究中,基因表达数据分析是一项至关重要的任务。由于现代技术可以获取大量的基因表达数据,但样本数量相对较少,这导致了所谓的...
在分析研究的过程中,作者使用了专业统计软件SPSS进行数据处理,以确保研究结果的准确性和可靠性。相关系数的计算以及显著性检验的结果均在文中有所体现。此外,文章还引述了一些其他学者的研究成果,如Todd ECD关于...
该方法的核心是通过分析不同模态之间的内容特征在统计意义上的典型相关性,并采用子空间映射技术来处理不同模态间特征向量的异构性问题。此外,还利用相关反馈中的先验知识来调整不同模态多媒体数据集在子空间中的...
接着,文章详细介绍了Copula函数及其在相关性分析和多元统计分析中的应用。Copula函数是将多元边缘分布映射到一元函数上,通过联结函数来构造多元联合分布。它能够简化联合分布的计算问题,并准确地描述随机变量之间...
【新能源发电相关性分析】 新能源发电,主要包括风能和太阳能(光伏),近年来在全球范围内得到了快速发展。由于这些能源的产出受到自然环境因素(如风速、日照强度)的直接影响,因此其发电量具有明显的随机性和...
Nataf变换是一种统计方法,其核心思想是将原本独立且非正态分布的随机变量,通过一定的变换方法转换为具有相关性和正态分布的变量。这一技术的应用能够有效处理多维风速样本的相关性问题,为后续的调度模型提供了...