- 浏览: 812256 次
- 性别:
- 来自: 武汉
文章分类
最新评论
-
107x:
不错,谢谢!
log4j.properties配置详解 -
gzklyzf:
为啥我解析的PDF文档没有作者、文章题目等信息啊,下面是我的代 ...
Apache Lucene Tika 文件内容提取工具 -
mervyn1024:
解压密码是啥
ictclas4j调整 -
百卉含英:
如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解 -
lxhxklyy:
mark……
log4j.properties配置详解
第4章基于图的特征选择
我们研究的目的是寻找更高效、更能帮助分类器、能更好理解数据集的特征选择技术。我们提出一种新的基于图的过滤型特征选择算法:基于图的多类别特征结合算法(GMS, Graph-based Multi-category Score Combination)。
这一算法对数据集上的每个类构建一个词在这个图上通过马尔可夫链给每个词项算出一个评分,然后综合各个词项在各个类别的评分,得到每个词项的一个总的评分,从而得到一个词项的排序,选取评分最大的若干个词项,作为这一数据集的特征集合。
4.1图模型与符号表示
本节介绍算法的图模型,及算法中使用的符号表示。
4.1.1符号表示
设数据集可以表示为一个 的矩阵 ,其中 是总的特征数, 是数据集中的文档数。这是一个向量空间模型表示。 中的每一个列向量表一篇文档 , 的第 个元素由 表示, 。 表示 的转置。假设有 个类别, 。这里假设训练集中的每篇文档属于且仅属于一个类。
维度约简问题可以被定义为求解函数 ,其中 是原特征总数,p是约简后的特征数( ),约简后的结果向量表示为 。从特征抽取的角度来看,特征约简问题目的在于找到一个优化的转换矩阵 ,使得 是原数据的遵循某种优化准则的 维数据表示。在特征抽取问题里, 是连续的解空间。然而,特征选择任务是为了找到原特征集的某个子集,使得 ,其中 是离散的解空间。 的元素或者是0、或者是1,而且 的每列只有一个非0元素。
在文本分类任务中,特征等价于词项,每个词项是一个特征。一个数据集的全特征集空间,既是除去stop words和stemming后的所有词项构成的词项空间。
特征约简的目的是除去不相关的数据并且提高学习的精确度。文本分类题中特征约简的优化准则是与全特征集空间的对比分类正确率。约简后的特征空间中进行的文本分类工作的分类能力应该和全空间特征集的差距不大,甚至超过全空间特征集的分类能力。
这里,定义特征选择问题为:
给定一组训练文档,特征选择任务是在原特征空间中选择一组特征子集,使得约简后的特征空间在某个优化标准上几乎与原特征空间是可比的。
在文本分类问题中,这一优化标准即是分类能力,具体表现为分类正确率、精准率、召回率、错误率、F1量测等一系列评价指标。
4.1.2图模型
算法对每个类别 构建两个图,一个是文档-词项图 ,一个是表示词项之间互相关联的词项图 。
令 表示一个类别 的无向二分图,其中 表示 的节点集合, 表示 的边集合。图4.1是一个 的示意图。小圆圈代表文档,小方框代表词项。一篇文档和一个词项有边,当且仅当此文档包含这个词。文档 和词项 之间的边权是t在文档里中的TF-IDF值:
其中 表示词项, 表示文档; 是词项 在文档 中出现的频率; 是数据集中所有文档的数目; 是词项 出现的文档数目。
图4.1: 是 的文档-词项图,图4.1是一个有4篇文档和5个词项的 的例子;其中小圆代表文档,小方框代表词项。
图4.2: 是由图4.1的 转换生成的词项图。其中小方框代表词项。
文档-词项矩阵W∈Rd×n既是图 的邻接矩阵,其中的元素是词项在文档中的TF-IDF值,也即是边权。
从文档-词项图 ,可以得到另一个图 ,其结点都是词项,如图4.2所示。令 表示类别 的一个无向图, 表示 的节点集合, 表示 的边集合。词项 和 有边,当且仅当 和 同时出现于至少一篇文档里。 和 的边权定义为:
其中 是0若文档 不包含词项 。 是所有 和 同时出现的文档的 和 权值之积的总和。则称词项 和 有关系, 和 在图 中有边相联,边权等于 。
的邻接矩阵 可由如下公式得到:
是无向图 的邻接矩阵,且 是对称矩阵。
4.2马尔可夫链模型
在本算法中,马尔可夫链模型对寻找最重要的词项起到了很重要的作用。本节介绍马尔可夫链模型的基本思想和原理。
4.2.1中心性(Centrality)
表示的是类别 的词项图,而希望找到的是哪些词项更重要,也即是寻找哪些词项更重要。这里对类别 的词项图 进行分析。
见图4.2,显而易见,有较大的度的词项,例如词项4,它和比较多的词项相连接,所以,它看起来比其他度小的词项在这个图中更有意义,也既是更重要。然而,只考虑度的大小是不够的。度的大小反映了结点的在小范围内的相对重要性,而即使度相同,不同重要程度的边也会使不同的结点不一样重要。这里希望得到的是整个图上,每个结点的重要程度。称整个图上的结点重要性为中心性(Centrality)。
举个例子,考虑一个社交网络。社交网络里的每个结点是人,每个人认识一些朋友,有的人认识的朋友多,和他/她相联的边就比较多,有的人认识的朋友少,和他/她相联的边就少。中心性可以认为对应于人在这一社交网络中的名声/重要程度。很容易可以想到,一个人认识越多的人,他的名声就越大,这个人就越重要。然而,有时候,一个人虽然认识的人多,但这些人都是些不重要的人,那么这个人也未必有名气;若一个人认识的人少,但是这些人都是有名气、很重要的人物,那么这个人必然也是一个很重要的人。抽象来说,一个结点相联的多少固然重要,然而与之相联的结点是否重要也是中心性的一个有意义的考虑因素。
还有一个方面。仍然以社交网络为例。假若一个人认识了一个有名气的大人物,这会一定程度上给他/她的重要度加分,然而,加多少分,还要取决于他/她和这个大人物之间的关系如何,越是亲密的关系,加分就越多。若是很弱的关系,那恐怕加分就很小了。抽象来说,还需要考虑结点和结点之间的边权对中心性的作用。
小结一下,若想在一个图中寻找结点的重要程度,即中心性,则需要考虑三个因素:结点度,与此结点相连接的结点,结点之间的边权。结点度越高,结点就越重要;与此结点相连接的结点越重要,此结点就越重要;结点之间的边权越高,则相邻结点的重要程度对此结点的影响就越大。使用马尔可夫链模型来对 建模。4.2.2,4.2.3,4.2.4将介绍马尔可夫链模型,并说明马尔可夫链模型是如何满足上述的三点要求的。
4.2.2马尔可夫链模型(Markov Chain Model)
令stochastic矩阵X表示一个马尔可夫链的转移矩阵。所有stochastic矩阵的行的和必须等于1。 表示在这马尔可夫链中从状态 转移到状态 的转移概率。 表示从状态 经过n步转移到状态 的概率。对应于stochastic矩阵X的马尔可夫链收敛于一个固定分布:
其中I=(1,1,...,1),称向量r为马尔可夫链的固定分布。
固定分布的一个直观解释是随机行走。假设有随机行走者在马尔可夫链图上沿着链接随机的走。在每个结点上,他可能随机的沿着不同的路走,不同的路有不同的概率。一直一直地在图上跳转。若这个图的转移矩阵满足马尔可夫链要求的话,则可以证明无论这个人从哪里开始,他最后停留在每个结点上的概率是恒定的。直观上来看,随机行走的收敛性说明了各个结点的overall centrality是由图本身的结构决定的,而与初始点无关。
向量 的每一个元素可以被认为是,随机行走最后会停在这个结点上的极限概率,不管初始状态是什么。
这里讨论马尔可夫链的收敛性。如果马尔可夫链中的任何结点都可以从其他结点转移到,则称此马尔可夫链是irreducible的,即对任意 , ,存在 ,使得 。此外,如果马尔可夫链中的任意结点都可以转移至它子集,则称此马尔可夫链是aperiodic的,即对任意结点 ,存在 ,使得 。根据Perron-Frobenius定理(Seneta,1981),一个irreducible和aperiodic的马尔可夫链一定会收敛于一个唯一的固定分布。
直观地想,如果一个马尔可夫链有某部分是reducible或者periodic的话,则随机行走者可能会困在某个子图里,永远也无法访问图的其他的部分。所以irreducible和aperiodic是随机行走可以成行的必要条件。
下面给出收敛马尔可夫链的数学模型。
假设有一个图 , 是结点集, 是边集。设 是图 的一个马尔可夫链的stochastic矩阵,且X满足irreducible和aperiodic。 表示图中结点总数。设 是随机行走在结点 的分布概率。 表示从 转移至 的转移概率。则有
其中 表示 的邻接结点集合。这个公式表明每个结点的分布概率是其邻接结点的分布概率与邻接边乘积之和。当随机行走收敛时,每个结点都将满足这个公式。
随机行走计算的矩阵表示是:
其中 是 维向量, 表示结点 的分布概率。这个公式意为固定分布再转移一次,固定分布不变,说明已收敛至稳定状态。
4.2.3类别建模
在这一节中,将结合马尔可夫链模型,对每个类别 的图 构造马尔可夫链。
令 表示 的转移矩阵,其 表示词项 和词项 的相关度如公式(2)所示。 可由文档-词项图矩阵 直接求得。希望经过对 进行变换,得到图 上的一个马尔可夫链的stochastic矩阵。
为了满足stochastic矩阵的要求,对 矩阵的每行进行归一化。令 表示 的每行归一化后的矩阵,则有:
则 k的每一行之和等于1。则 是 上的一个stochastic矩阵。所以,可以将这个问题看成是马尔可夫链。
令p表示词项图 的所有结点的分布概率向量。 是 维向量, 表示结点 的分布概率。则结点的分布概率关系是:
其中 表示结点 的分布概率, 是 的邻接结点集, 是结点 和结点 在归一化的转移矩阵 中的边权。
等价地,可以得到矩阵形式为:
然而,除了满足stochastic要求以外,还需要 满足irreducible和aperiodic的。为了解决这个问题,Larry Page建议给每个结点加一个小的跳转概率。这样随机行走者总有可能从孤立子图跳出到其他地方去,这样就使得这个图变成irreducible和aperiodic的了。如果赋予每一个结点同样的一个小的跳转概率,则将结点分布计算公式修改为如下形式:
其中 是图中的结点总数, 是一个衰减因子(damping factor),一般的选择分为是[0.1,0.2]。
相应的矩阵表示形式为
其中 是一个所有元素都为 的方阵。对应马克尔夫链的转移核心, ,是两个方阵 和 的结合。在此马尔可夫链上的随机行走者以 的概率选择跳转当前状态的邻接状态的其中一个,或者以概率 跳去图上的任何一个状态,包括当前的状态。由于此跳转,任何结点都可能到达任何其他结点,由此满足了irreducible和aperiodic的条件。由此,每个图 可以认为是一个马尔可夫链来进行计算。
马尔可夫链的收敛性使其可以用一种简单的迭代法计算各结点的固定概率,称这一方法为Power Method。这一方法初始令每个结点的概率分布值相等。在每次迭代中,将分布向量与随机矩阵相乘。只要随机矩阵是irreducible和aperiodic的,这样的随机矩阵保证最后的分布向量将收敛到一个固定概率分布。
摘自:文本分类中特征选择的理论分析和算法研究
其中不可约矩阵和非周期矩阵的介绍可以参见wiki上马尔科夫链词条。
http://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
- 第4章基于图的特征选择.pdf (299.2 KB)
- 下载次数: 40
- 第4章基于图的特征选择.rar (52.5 KB)
- 下载次数: 26
发表评论
-
关于调整华中科技大学期刊分类办法征求意见的通知
2012-02-21 11:06 8468关于调整华中科技大学期刊分类办法征求意见的通知 ... -
半监督分类点滴
2011-10-14 10:55 1473半监督分类点滴 如果仅使用有标记样本 ... -
参考文献
2011-04-10 23:22 1065专著(M:Monograph);论文集(C:Collected ... -
Web-based Services and Information Systems
2011-04-08 23:21 1257[Dbworld] Web-based Services an ... -
词序列核函数
2011-03-21 17:23 1664词序列核函数 Case 1: ACB & ... -
Standard treebank POS tagger
2011-03-12 14:48 1488Standard treebank POS tagger ... -
Rand指数
2010-12-17 15:58 2408Rand指数为Milligan和Cooper[]提 ... -
关于期刊
2010-12-03 12:06 1586Web Mining相关国际会议期刊及影响因子列表(欢迎 ... -
有关国际会议3
2010-12-03 12:00 27203对AI领域的会议的评点The First Class:今天先 ... -
有关国际会议2
2010-12-03 11:56 1524AREA: Artificial Intelligence a ... -
有关国际会议1
2010-12-03 11:53 16771几个数据库/数据挖掘会议 iamlucky SIGMOD ... -
CCF公布推荐的国际学术会议和期刊目录
2010-10-12 14:47 1817CCF公布推荐的国际学术会议和期刊目录 经过3年多的工 ... -
curriculum vitae
2010-06-12 17:46 1506Benxiong Huang received t ... -
期刊列表
2010-04-22 14:29 1281World Wide Web 1386-145X ... -
Minor revision required \- IEEE Intelligent Systems, ISSI\-2009\-09\-0121\.R1
2010-03-26 21:06 2661旧历年去年腊月二十九发出的信件,到三十晚上猛然发现的。 滑行 ... -
从SCI他引看研究论文的质量----再从这里谈开去zz
2010-03-26 20:59 2555从SCI他引看研究论文的质量----再从这里谈开去zz ... -
ISI公布2008年度SCI收录期刊影响因子
2010-03-08 21:37 2773ISI公布2008年度SCI收录期刊影响因子 2 ... -
IEEE Intelligent Systems, ISSI\-2009\-09\-0121: Decision: major revision
2009-12-23 15:29 1906这篇早该发出来,以识之。 go on working…… ... -
从语言模型“反推”的角度看查询扩展
2009-12-04 21:43 14616.2从语言模型“反推”的角度看查询扩展 查询扩展就是根据实 ... -
语言模型
2009-11-18 21:12 1916恩,首先说语言模型是 ...
相关推荐
在IT领域,随机行走模型(Random Walk Model)是一种广泛应用的数学工具,特别是在金融学、物理学、计算机科学和统计学中。这个模型常被用来模拟和预测不可预知的行为,如股票价格变动、网络浏览行为或者粒子在物理...
该算法基于概率论中的随机过程理论,通过模拟粒子在图像像素空间中的随机行走来确定像素的归属类别。在MATLAB环境中实现随机游走算法,可以帮助研究人员快速理解和应用这一方法。 首先,随机游走算法的基本思想是将...
Java重启式随机游走(Random Walk with Restart, RWR)是一种在复杂网络中探索节点间关系的算法。在社交网络、信息检索、生物网络分析等领域有着广泛应用。此算法结合了随机游走的思想与重启机制,使得随机游走过程...
在“Weighted network motifs as random walk patterns”这个项目中,可能包含了利用Matlab编写的相关算法和脚本,用于识别和分析加权网络中的随机行走模式。这些脚本可能涵盖了以下步骤: 1. **网络构建**:首先,...
BIE-WOS方法基于概率论解决方案,利用随机球行走(Random Walk on Spheres, WOS)来处理拉普拉斯方程的Dirichlet和Neumann数据。这种方法的核心是Feynman-Kac公式,该公式将偏微分方程与随机过程(Ito扩散)关联起来...
在这个程序中,用户可以模拟不同类型的随机行走,以理解和研究随机行为的规律。 随机漫步是一种离散时间随机过程,其中每一步都是在一定空间中的随机移动。在描述中提到的“布朗运动”是随机漫步的一个特殊例子,它...
该算法基于概率论中的随机过程理论,通过模拟粒子在图像像素空间中的随机行走来确定像素的归属类别。在MATLAB环境中实现随机游走算法,可以帮助研究人员快速理解和应用这一方法。 随机游走算法的基本思想是将图像...
该算法基于概率论中的随机过程理论,通过模拟粒子在图像像素空间中的随机行走来确定像素的归属类别。在MATLAB环境中实现随机游走算法,可以帮助研究人员快速理解和应用这一方法。 随机游走算法的基本思想是将图像...
为了深入理解异常扩散,文章从连续时间随机游走(continuous time random walk, CTRW)模型开始,这是理解异常扩散的重要理论框架。在连续时间随机游走模型中,粒子的等待时间(停留时间)和跳跃距离(行走距离)...
随机行走模型python代码
在IT领域,尤其是在数据分析、计算机模拟以及复杂系统研究中,随机行走(Random Walk)是一个重要的概念。随机行走数据图表常用于展示随机过程的行为,尤其是在统计物理、金融学、网络科学等多个领域都有广泛应用。...
1. **随机行走(Random Walk)**:随机行走是一种数学模型,描述一个对象在每一步都沿着随机方向移动的情况。在这个PDF文档中,随机行走被用来模拟针落在平行线之间的概率问题,以及在三维空间中的行走。 2. **...
2. 三维随机行走(Random walk in three dimension): 这个例子展示了三维空间中的随机行走。通过一个二维数组`re`记录每一步行走的位移,每行代表一步,每列代表一个维度。每次行走,有1/3的概率在三个维度中任选...
随机行走在球体上随机游走的代码片段。 检查 ipython 笔记本: ://nbviewer.ipython.org/github/n0mad/random_walk/blob/master/Random walk on a sphere.ipynb
`Metropolis-Hasting Random Walk.docx`文档可能包含了一个使用MATLAB编写的Metropolis-Hastings算法示例。MATLAB是一种强大的编程环境,适合数值计算和数据分析,对于实现这种算法非常方便。 总的来说,Metropolis...
addpath('<install>/Random_Walk_Art/') random_walk_art 或渐变版本 addpath('<install>/Random_Walk_Art/') random_walk_art_gradient 将打开以下对话框以供输入。 Enter size of box region (x