`
run_xiao
  • 浏览: 195387 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

利用混合马尔可夫模型对用户搜索行为进行聚类

阅读更多

最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强

 

的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间

 

序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选

 

择又遵循一定的概率分布;并用EM算法求解模型的参数。

 

该模型已在Hadoop上实现,跑了一天的数据,大于1千多万的Session序列,初步看了看效果,还是蛮不错滴。

 

 

2
0
分享到:
评论
2 楼 run_xiao 2010-08-30  
fastzch 写道
牛人呀!都看不懂了,大牛了!

哈哈,咋给牛人打杂的
1 楼 fastzch 2010-08-20  
牛人呀!都看不懂了,大牛了!

相关推荐

    基于EM算法的模型聚类的研究及应用.zip

    这种算法在统计学和机器学习领域具有广泛的应用,特别是在数据缺失、隐含变量存在的情况下,如混合高斯模型、隐马尔可夫模型(HMM)以及主题模型等。 在"基于EM算法的模型聚类的研究及应用.zip"压缩包中,虽然没有...

    Python中的隐马尔可夫模型与scikitlearn类似的API.zip

    在Python编程环境中,隐马尔可夫模型(Hidden Markov Model, HMM)是一种常用的统计建模方法,尤其适用于处理序列数据,如自然语言、基因序列等。在本压缩包中,`hmmlearn_main.zip`包含了一个实现HMM的库,可能是对...

    高斯混合模型及EM算法

    在实际应用中,GMM通常用来对数据进行聚类,而不需要预先指定簇的数量。每个组件可以拥有不同的均值、协方差以及权重。 EM算法,即期望最大化算法,是一种迭代算法,用于含有隐变量的概率模型参数的最大似然估计,...

    高斯混合模型的源程序代码,还包含程序,实验报告

    GMM是隐马尔可夫模型(HMM)的一个重要基础,并在语音识别、计算机视觉、生物信息学等领域有广泛应用。 源程序通常包含实现GMM算法的代码,这可能包括以下几个关键部分: 1. **初始化**:GMM的初始化通常涉及随机...

    论文研究 - 贝叶斯非参数混合模型及其在生物标志物建模中的应用

    该研究受到贝叶斯非参数混合模型的启发,该模型与贝叶斯参数模型相比更加灵活,并且能够在不同中心之间借用信息,从而将它们组合在一起。 为此,本研究考虑了替代标记对生物学标记进行了建模。 该研究采用了嵌套的...

    改进的水下声目标深度聚类模型

    最后,利用马尔可夫链蒙特卡洛方法(MCMC)对系统进行联合优化,并采用简洁的更新公式进行实现。在两个真实水下声学目标数据库上的实验结果表明,所提出的聚类方法是有效的,并且具有鲁棒性。 文章标签所涉及的知识点...

    自动驾驶障碍车辆行为预测技术研究.pdf

    高斯混合模型是一种软聚类算法,它假设数据是由多个高斯分布的混合模型产生的,通过模型参数的估计能够对车辆行为特征进行分类。这为预测车辆的驾驶行为提供了一种有效的方法,尤其是对于处理带有时间和空间信息的...

    EM算法已经在高斯混合模型参数估计中的应用

    ### EM算法在高斯混合模型参数估计...通过对EM算法原理的介绍及其在高斯混合模型和隐马尔可夫模型中的应用示例,我们可以看到EM算法的强大之处。在未来的研究中,EM算法将继续作为解决复杂模型参数估计问题的重要工具。

    matlab-Expectation-Maximization(EM)算法数据聚类matlab仿真,动态显示EM过程-源码

    - EM算法不仅应用于聚类,还广泛用于隐马尔可夫模型(HMM)、主题模型等,以及图像分析、语音识别等领域。 - MATLAB中的仿真可以帮助用户直观理解EM算法的性能和局限性,为实际问题的解决提供参考。 7. **优化与...

    自动聚类算法确定cluster数目的方法 (2).pdf

    确定聚类数目是聚类分析中的一个关键问题,因为合适的聚类数量对结果的解释性和准确性至关重要。以下是一些自动确定聚类数目的常用方法: 1. **交叉验证**: 交叉验证是一种评估模型性能的方法,通常在分类或回归...

    基于多变量时间序列的接触状态聚类分析.docx

    隐马尔可夫模型通过训练优化观测信号的概率,进行在线状态识别。而支持向量机(SVM)则常用于特征提取后的在线分类,通过构建模糊推断机制实现层次化分类。高斯混合模型(GMMs)常用于根据分布特性识别接触状态,...

    基于MATLAB的语音识别GMM用MATLAB编程的GMM模型,在语音识别中发挥很大作用,采用的方法为高斯混合模型 2.rar

    GMM通常与隐马尔可夫模型(Hidden Markov Model, HMM)结合使用,形成GMM-HMM系统,以处理语音的时序变化。 在MATLAB中,构建GMM的过程包括以下几个步骤: 1. **数据预处理**:首先,需要将原始的语音信号转换成...

    数据挖掘与算法视频(系统架构,NLP-文本相似度,数据挖掘-中文分词,隐马+推荐算法,分类算法,聚类算法)等

    隐马尔可夫模型是一种统计模型,用来描述一个含有未知参数的马尔可夫过程。在自然语言处理中,HMM常被用于语音识别、词性标注等任务。其主要组成部分包括: 1. **状态空间**:定义了所有可能的状态集合。 2. **观测...

    基于HMM算法的语音识别系统设计及其混合编程实现

    通过采用连续密度隐马尔可夫模型(CDHMM)和混合编程的方式,该系统能够在保证高性能的同时,实现更快的开发周期和更高的资源利用效率。未来的工作将进一步探索如何优化特征提取算法和模型训练过程,以提高语音识别...

    高斯混合模型

    高斯混合模型(Gaussian Mixture Model,GMM)是一种概率模型,广泛应用于机器学习领域,尤其是数据聚类和概率密度估计。它假设数据是由多个高斯分布(正态分布)混合而成,每个高斯分布代表一个潜在类别或成分。在...

    清华大学-学堂在线-大数据机器学习课件笔记.zip

    清华大学-学堂在线 大数据...adaboost 算法、EM 算法及混合高斯模型、计算学习理论、隐马尔可夫模型和概率图模型、条件随机场、概率图模型的学习与推断、神经网络与深度学习、深度学习正则化方法、深度学习优化方法等。

    基于模型的基因表达聚类分析技术研究进展 (2006年)

    3. **隐马尔可夫模型(Hidden Markov Models, HMMs)**: - HMMs通常用于时间序列数据的建模,在基因表达数据中可用于分析基因表达随时间变化的模式。 - 通过定义隐藏的状态和观测值之间的关系,HMMs能够捕捉到...

    EM算法用于高斯混合模型的参数估计

    ### EM算法用于高斯混合模型的参数估计 #### 一、引言 EM算法(Expectation-Maximization Algorithm)是一种广泛应用于统计模型参数估计的方法...此外,EM算法还广泛应用于其他领域,如隐马尔可夫模型、因子分析等。

    无限伯努利混合:二进制数据的非参数贝叶斯聚类。-matlab开发

    本项目聚焦于无限伯努利混合模型(Infinite Bernouli Mixture Model, IBMM),它是一种利用Dirichlet过程混合模型(Dirichlet Process Mixture Model, DPMM)来对二进制数据进行聚类的方法。通过MATLAB实现,该项目...

Global site tag (gtag.js) - Google Analytics