`
run_xiao
  • 浏览: 194933 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

利用混合马尔可夫模型对用户搜索行为进行聚类

阅读更多

最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强

 

的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间

 

序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选

 

择又遵循一定的概率分布;并用EM算法求解模型的参数。

 

该模型已在Hadoop上实现,跑了一天的数据,大于1千多万的Session序列,初步看了看效果,还是蛮不错滴。

 

 

2
0
分享到:
评论
2 楼 run_xiao 2010-08-30  
fastzch 写道
牛人呀!都看不懂了,大牛了!

哈哈,咋给牛人打杂的
1 楼 fastzch 2010-08-20  
牛人呀!都看不懂了,大牛了!

相关推荐

    基于EM算法的模型聚类的研究及应用.zip

    这种算法在统计学和机器学习领域具有广泛的应用,特别是在数据缺失、隐含变量存在的情况下,如混合高斯模型、隐马尔可夫模型(HMM)以及主题模型等。 在"基于EM算法的模型聚类的研究及应用.zip"压缩包中,虽然没有...

    Python中的隐马尔可夫模型与scikitlearn类似的API.zip

    在Python编程环境中,隐马尔可夫模型(Hidden Markov Model, HMM)是一种常用的统计建模方法,尤其适用于处理序列数据,如自然语言、基因序列等。在本压缩包中,`hmmlearn_main.zip`包含了一个实现HMM的库,可能是对...

    高斯混合模型及EM算法

    在实际应用中,GMM通常用来对数据进行聚类,而不需要预先指定簇的数量。每个组件可以拥有不同的均值、协方差以及权重。 EM算法,即期望最大化算法,是一种迭代算法,用于含有隐变量的概率模型参数的最大似然估计,...

    高斯混合模型的源程序代码,还包含程序,实验报告

    GMM是隐马尔可夫模型(HMM)的一个重要基础,并在语音识别、计算机视觉、生物信息学等领域有广泛应用。 源程序通常包含实现GMM算法的代码,这可能包括以下几个关键部分: 1. **初始化**:GMM的初始化通常涉及随机...

    论文研究 - 贝叶斯非参数混合模型及其在生物标志物建模中的应用

    该研究受到贝叶斯非参数混合模型的启发,该模型与贝叶斯参数模型相比更加灵活,并且能够在不同中心之间借用信息,从而将它们组合在一起。 为此,本研究考虑了替代标记对生物学标记进行了建模。 该研究采用了嵌套的...

    改进的水下声目标深度聚类模型

    最后,利用马尔可夫链蒙特卡洛方法(MCMC)对系统进行联合优化,并采用简洁的更新公式进行实现。在两个真实水下声学目标数据库上的实验结果表明,所提出的聚类方法是有效的,并且具有鲁棒性。 文章标签所涉及的知识点...

    自动驾驶障碍车辆行为预测技术研究.pdf

    高斯混合模型是一种软聚类算法,它假设数据是由多个高斯分布的混合模型产生的,通过模型参数的估计能够对车辆行为特征进行分类。这为预测车辆的驾驶行为提供了一种有效的方法,尤其是对于处理带有时间和空间信息的...

    matlab-Expectation-Maximization(EM)算法数据聚类matlab仿真,动态显示EM过程-源码

    - EM算法不仅应用于聚类,还广泛用于隐马尔可夫模型(HMM)、主题模型等,以及图像分析、语音识别等领域。 - MATLAB中的仿真可以帮助用户直观理解EM算法的性能和局限性,为实际问题的解决提供参考。 7. **优化与...

    自动聚类算法确定cluster数目的方法 (2).pdf

    确定聚类数目是聚类分析中的一个关键问题,因为合适的聚类数量对结果的解释性和准确性至关重要。以下是一些自动确定聚类数目的常用方法: 1. **交叉验证**: 交叉验证是一种评估模型性能的方法,通常在分类或回归...

    基于多变量时间序列的接触状态聚类分析.docx

    隐马尔可夫模型通过训练优化观测信号的概率,进行在线状态识别。而支持向量机(SVM)则常用于特征提取后的在线分类,通过构建模糊推断机制实现层次化分类。高斯混合模型(GMMs)常用于根据分布特性识别接触状态,...

    基于MATLAB的语音识别GMM用MATLAB编程的GMM模型,在语音识别中发挥很大作用,采用的方法为高斯混合模型 2.rar

    GMM通常与隐马尔可夫模型(Hidden Markov Model, HMM)结合使用,形成GMM-HMM系统,以处理语音的时序变化。 在MATLAB中,构建GMM的过程包括以下几个步骤: 1. **数据预处理**:首先,需要将原始的语音信号转换成...

    数据挖掘与算法视频(系统架构,NLP-文本相似度,数据挖掘-中文分词,隐马+推荐算法,分类算法,聚类算法)等

    隐马尔可夫模型是一种统计模型,用来描述一个含有未知参数的马尔可夫过程。在自然语言处理中,HMM常被用于语音识别、词性标注等任务。其主要组成部分包括: 1. **状态空间**:定义了所有可能的状态集合。 2. **观测...

    基于HMM算法的语音识别系统设计及其混合编程实现

    通过采用连续密度隐马尔可夫模型(CDHMM)和混合编程的方式,该系统能够在保证高性能的同时,实现更快的开发周期和更高的资源利用效率。未来的工作将进一步探索如何优化特征提取算法和模型训练过程,以提高语音识别...

    高斯混合模型

    高斯混合模型(Gaussian Mixture Model,GMM)是一种概率模型,广泛应用于机器学习领域,尤其是数据聚类和概率密度估计。它假设数据是由多个高斯分布(正态分布)混合而成,每个高斯分布代表一个潜在类别或成分。在...

    清华大学-学堂在线-大数据机器学习课件笔记.zip

    清华大学-学堂在线 大数据...adaboost 算法、EM 算法及混合高斯模型、计算学习理论、隐马尔可夫模型和概率图模型、条件随机场、概率图模型的学习与推断、神经网络与深度学习、深度学习正则化方法、深度学习优化方法等。

    基于模型的基因表达聚类分析技术研究进展 (2006年)

    3. **隐马尔可夫模型(Hidden Markov Models, HMMs)**: - HMMs通常用于时间序列数据的建模,在基因表达数据中可用于分析基因表达随时间变化的模式。 - 通过定义隐藏的状态和观测值之间的关系,HMMs能够捕捉到...

    EM算法用于高斯混合模型的参数估计

    ### EM算法用于高斯混合模型的参数估计 #### 一、引言 EM算法(Expectation-Maximization Algorithm)是一种广泛应用于统计模型参数估计的方法...此外,EM算法还广泛应用于其他领域,如隐马尔可夫模型、因子分析等。

    无限伯努利混合:二进制数据的非参数贝叶斯聚类。-matlab开发

    本项目聚焦于无限伯努利混合模型(Infinite Bernouli Mixture Model, IBMM),它是一种利用Dirichlet过程混合模型(Dirichlet Process Mixture Model, DPMM)来对二进制数据进行聚类的方法。通过MATLAB实现,该项目...

Global site tag (gtag.js) - Google Analytics