- 浏览: 1664916 次
- 性别:
- 来自: 北京
-
文章分类
- 全部博客 (405)
- C/C++ (16)
- Linux (60)
- Algorithm (41)
- ACM (8)
- Ruby (39)
- Ruby on Rails (6)
- FP (2)
- Java SE (39)
- Java EE (6)
- Spring (11)
- Hibernate (1)
- Struts (1)
- Ajax (5)
- php (2)
- Data/Web Mining (20)
- Search Engine (19)
- NLP (2)
- Machine Learning (23)
- R (0)
- Database (10)
- Data Structure (6)
- Design Pattern (16)
- Hadoop (2)
- Browser (0)
- Firefox plugin/XPCOM (8)
- Eclise development (5)
- Architecture (1)
- Server (1)
- Cache (6)
- Code Generation (3)
- Open Source Tool (5)
- Develope Tools (5)
- 读书笔记 (7)
- 备忘 (4)
- 情感 (4)
- Others (20)
- python (0)
最新评论
-
532870393:
请问下,这本书是基于Hadoop1还是Hadoop2?
Hadoop in Action简单笔记(一) -
dongbiying:
不懂呀。。
十大常用数据结构 -
bing_it:
...
使用Spring MVC HandlerExceptionResolver处理异常 -
一别梦心:
按照上面的执行,文件确实是更新了,但是还是找不到kernel, ...
virtualbox 4.08安装虚机Ubuntu11.04增强功能失败解决方法 -
dsjt:
楼主spring 什么版本,我的3.1 ,xml中配置 < ...
使用Spring MVC HandlerExceptionResolver处理异常
第三章 查找相似的Items
数据挖掘的一个基本问题是检测相似的Items.比如网页去重,从网页集合中找到近似重复的网页,这类网页通常是内容相同,但是有一些是关于不同站点和镜像的内容。
这章从集合中找到交集,交集和集合大小的相对比率表示相似度,展开介绍相似度。我们会介绍怎样把文本文档的相似性表示为集合问题,这种技术被称为指纹方式。然后介绍了minhashing,他可以将大的集合压缩,并从压缩后的版本导出原来集合的相似度。其他的一些相似度算法在3.9进行了介绍。
一个非常重要的问题是,我们要搜索相似的Items,我们需要比较两两比较,这需要比较太多
的次数,即使每一对比较都非常的简单,但是仍然需要非常大的计算量。使用"locality-senitive hashing"可以解决这个问题,他只搜索可能相似的pair。
最后,介绍了不通过集合交集来表达的形似度计算方法,然后介绍了LSH通用的框架,可以使用其他定义的相似度算法。
3.1 临近搜索应用
3.1.1
Jaccard 相似度表示为: 两个集合S和T,
SIM(S,T) = |S ∩ T |/|S ∪ T |.
3.1.2 文档相似度
从文档比如网页或者新闻文章集中找出文本相似的文档,Jaccard相似度可以很好的解决。
文本相似度具有很大的用处,比如找出重复或者近似重复的文档,测试两个文档完全重复是很好做的事情,但是有一些应用中,他们不是完全一样,而是共享很大一部分内容。有以下应用:
文章抄袭
查找文档的抄袭可以检测我们查找文档相似度的能力。抄袭者可能只有一部分时他自己的,他可能修改了措辞或者调整了句子的顺序,但是仍有50%是抄袭别人的。简单的逐字的对比来是检测不出复杂的抄袭。
镜像网页
一些流行的网站会把网页镜像到不同的域中,以此来均衡服务器压力。网站的镜像中的网页非常相似,但是并不是完全相同,他们可能会包含自己的域的信息,链接到其他的镜像而不是他们自身。能够检测出重复网页是一个很重要的应用,比如搜索引擎应该避免近似相同的两个网页同时出现在搜索结果的第一页。
同一个来源的文章
一个记者写的一篇新闻,可能被多个媒体使用,每一个可能只是将这篇文章做了一些修改,
比如删除掉了一些段落,添加了他们自己的内容,内容周边环绕了他们的logo,广告,链接到他们自己网站的其他文章。Google新闻应该能够找到这个文章的所有版本,并只显示出一个,这需要查找两篇文章的文本相似度。
3.1.3 基于相似集合的协同过滤
另一类使用集合相似度的应用是协同过滤,协同过滤描述了把具有相似口味的用户的items推荐给其他用户。
在线购物
比如在亚马逊有上百万的用户和物品,记录了哪些用户买了哪些物品,如果两各个人购买的物品集合具有很高的Jaccard相似度,那么这两个客户也是相似的。
除了根据Jaccard相似度,还需要一些其他的工具,比如两个客户都喜欢看科幻小说,但是他们购买了不同的小说,具有很少的重复,那么我们还需要通过组合相似度和聚类来做协同过滤。
电影分级评分
NetFlix记录了哪些客户租了哪些电影,已经他们对这些电影的评分,我们可以认为如果相同的顾客对不同电影评分比较高的,它们具有很大的相似性。
bag相似度:
{a, a, a, b} 与{a, a, b, b, c} 的相似度为 1/3.
3.2 文档指纹签名
用文档的一个短的字符串集合来描述文档词法上的相似度,是非常有效的方法。这种方式,文档公用一些短的句子或者短语,这样这些文档的字符串集合会有很多的共同元素,即使这些句子出现的顺序不同。
3.2.1 k-shingles
一个文档是由字符组成的字符串,k-shingles表示文档中任意长度为k的字串集合。
我们还可以将他们出现的次数关联上去。比如文档D为abcdabd字符串,那么2-shingles为
{ab,bc,cd,da,bd}。ab出现了两次但是没有在2-shingles出现过两次。也可以采用bag的方式,对出现的个数进行技术。
对于空白字符的处理,最好的办法是将所有的连续空白都替换为单个空格。
3.2.2如何选择k
我们可以取k为任意常数,然而,如果我们选择k太小,则会有非常多的k-shingles出现在大多数的文章中。那么他们的指纹集合的Jaccard相似度就会很高。如果我们取k=1,那么大多数的网页中都含有非常多的共同的字符,很少的其他字符,那么所有的网页都是相似的。
k的长度应该根据文档的长度和字符集的大小来选定,但是最重要的是:k应该选择让任意的指纹在任意的文档中都应该是很低的概率
如果我们的语料是emails,那么选择k是5是一个很好的选择。对于大的文档,比如研究论文,可以选择k=9.
3.2.3 哈希指纹
除了使用子串进行指纹签名,我们还可以使用hash函数,他可以把长度为k的字符串映射到
一些桶中,将桶的数字作为指纹。这样一个文档的集合可以表示为一个或者多个k-shingles出现桶的数字。我们可以为文档构建9-shingles,然后将每一个9-shingles映射到0~2^32-1之间桶的标号中。这样每一个指纹只有4字节而不是9个了。这样不仅空间被压缩了,而且操作是单个机器字的操作。
我们可以使用9-shingles,然后将它hash成4个字节,这样文档的区分度就会别使用4-shingles要高,虽然在空间消耗上是一样的。
3.2.4 根据单词构建指纹
一个好的方式是,首先定义文中的停顿词,然后取出停顿词后面的两个单词,这样可以组成很好的指纹信息。这个在网页去重中非常有用,因为导航、边框都是很短的很少停顿词的句子,而正文中有很多的停顿词,这样可以去除非正文部分的干扰,并且获得比较好的效果。
3.3 保持相似性的集合摘要(Similarity-Preserving Summaries of Sets)
指纹集合是很大的,即使把他们hash为4个字节,它们所占的空间也是原来文档大小的4倍。如果我们数以百万的文档集合,那么在内存中存储所有的指纹集合是不可能的。
我们本节的目标是将很大的集合用很小的签名表示。签名的重要属性必须能够通过比较签名就能够估计其所表示集合的Jaccard 相似度。虽然签名不能得到精确的相似度,但是签名集合越大,估计出来的值越准确。
3.3.1 基于矩阵的集合表示法
在我们解释如何从大的集合构建小的签名之前,一个非常有用的方法将一组集合可视化为特征矩阵。矩阵的列和集合对应,行和所有集合的元素对应。如果第r行的元素出现在第c个集合,那么第r行c列的元素值为1,否则为0.
特征矩阵很容易可视化数据,但是不适合存储,因为矩阵一般是稀疏矩阵。
例如:元素集合{a,b,c,d,e},其中s1={a,d},s2={c},s3={b,d,e},s4={a,c,d}
那么这四个集合的矩阵表示为:
3.3.2 Minhashing
在本节,我们首先学习计算minhash的原理,然后在下面的章节我们介绍在实际中如何近似计算minhash的值。要minhash一个由特征矩阵的一列表示的集合,从这些行的全排列中选择一种排列。任何一列的minhash值是排列的次序中数字第一行是1的行号。
例子:比如我们要从前面矩阵中选择beadc次序的行,选择的这个排列定义了minhash函数h,他将集合映射到行。我们根据h计算minhash的值,我们发现当一个不是零的行是行a,因此
h(S1) = a,同样可以得到h(S2) = c, h(S3) = b, h(S4) = a.
虽然对一个很大特征矩阵进行全排列是不实际的,但minhash函数隐式的重新调整矩阵的行序。
3.3.3 Minhash和Jaccard相似度
minhash和其集合的Jaccard相似度有着重要的联系:两个集合的随机的一个行排列的minhash值相等的概率和两个集合的Jaccard相似度相等。
为什么呢?如果我们限制于集合s1和s2,那么行可以分成三类:
1.类型X 两列值都是1
2.类型Y 一列是1,另一列是0
3.类型Z 两列都是0
由于矩阵是稀疏的,所以大多数的行是类型Z。类型X和类型Y的函数既决定了SIM(S1,S2)
又决定了h(s1)=h(s2).我们假设有x行是类型X的,y行是类型y的。那么SIM(S1,S2) = x/(x+y).因为x是S1 ∩ S2的大小,而x + y是S1 ∪ S2大小.
现在我们考虑h(s1) = h(s2)的概率。如果我们假设我们随机排列行,那么我们从上到下,
在遇到类型Y之前遇到类型X的概率是x/(x+y)。如果我们从上往下遇到的除了Z类型的第一行
是X类型的行,那么h(s1) = h(s2).
另一方面,如果除了类型Z,我们第一次遇到的类型是类型Y,那么是1的集合,其对应行数,就是minhash值。是0的集合仍然需要向下才能找到为1的行,因此如果我们第一次遇到的是类型Y那么h(s1) <> h(s2)。所以h(s1) = h(s2)的概率是 x / (x + y),这也是s1和s2的Jaccard相似度。
3.3.4 Minhash签名
我们重新考虑一组集合,有特征矩阵M表示,为了代表这些集合,我们从M行的排列中选择n个
,可能是100或者几百个排列。有这些排列组成了minhash函数h1,h2,...,hn。
从由列表示的集合S,构建其minhash签名,组成向量[h1(s),h2(s),...,hn(s)]。我们把这些
hash值作为列,因此我们从矩阵M中得到了签名矩阵,矩阵M的第i个列被第i列的minhash签名所代替。
这个签名矩阵具有和原来矩阵一样的列M,但是只有n行,所以远远小于原来的矩阵大小。
3.3.5 计算Minhash签名
显式的计算一个很大的特征矩阵的排列是不可行的,即使从几百万或者几十亿的行中选择一个随机的排列也是非常耗时的。排列矩阵在概念上可以,但是不可以在实际中实现。
幸运的是,通过一个随机hash函数将行号和具有和行数相同的桶进行映射,可以有效的模拟随机排列。一个hash函数将0...k-1的数字映射到0...k-1的桶中,典型的可能出现不同的数字会映射到相同的桶中,然后其他的一些桶没有被映射。然而只要k足够大,并且没有太多的冲突,这个不同是不重要得,我们可以维护一个hansh函数h,他排列行r到h(r)的位置上。
方法一.行hash
选择k个hash函数,计算行号的hash值,然后按照值进行排序,得到随机的排列。
方法二 One-pass的实现
这样我们可以不去选择n个随机的排列,而是选择n个随机函数h1,h2...,hn,我们可以通过现在的顺序来构建签名矩阵,假设SIG(i,c)是签名矩阵的第i个hash函数和第c列,最初,我们设置所有的SIG(i,c)为无穷大,我们按照下面的方法来处理行r
1.计算h1(r),h2(r),...,hn(r)
2.对于所有的列c:
(a)如果(c,r)是0,不做任何操作
(b)如果(c,r)是1,那么对于i=1,2,...,n设置SIG(i,c)为当前的SIG(i,c)和hi(r)的最小值。
数据挖掘的一个基本问题是检测相似的Items.比如网页去重,从网页集合中找到近似重复的网页,这类网页通常是内容相同,但是有一些是关于不同站点和镜像的内容。
这章从集合中找到交集,交集和集合大小的相对比率表示相似度,展开介绍相似度。我们会介绍怎样把文本文档的相似性表示为集合问题,这种技术被称为指纹方式。然后介绍了minhashing,他可以将大的集合压缩,并从压缩后的版本导出原来集合的相似度。其他的一些相似度算法在3.9进行了介绍。
一个非常重要的问题是,我们要搜索相似的Items,我们需要比较两两比较,这需要比较太多
的次数,即使每一对比较都非常的简单,但是仍然需要非常大的计算量。使用"locality-senitive hashing"可以解决这个问题,他只搜索可能相似的pair。
最后,介绍了不通过集合交集来表达的形似度计算方法,然后介绍了LSH通用的框架,可以使用其他定义的相似度算法。
3.1 临近搜索应用
3.1.1
Jaccard 相似度表示为: 两个集合S和T,
SIM(S,T) = |S ∩ T |/|S ∪ T |.
3.1.2 文档相似度
从文档比如网页或者新闻文章集中找出文本相似的文档,Jaccard相似度可以很好的解决。
文本相似度具有很大的用处,比如找出重复或者近似重复的文档,测试两个文档完全重复是很好做的事情,但是有一些应用中,他们不是完全一样,而是共享很大一部分内容。有以下应用:
文章抄袭
查找文档的抄袭可以检测我们查找文档相似度的能力。抄袭者可能只有一部分时他自己的,他可能修改了措辞或者调整了句子的顺序,但是仍有50%是抄袭别人的。简单的逐字的对比来是检测不出复杂的抄袭。
镜像网页
一些流行的网站会把网页镜像到不同的域中,以此来均衡服务器压力。网站的镜像中的网页非常相似,但是并不是完全相同,他们可能会包含自己的域的信息,链接到其他的镜像而不是他们自身。能够检测出重复网页是一个很重要的应用,比如搜索引擎应该避免近似相同的两个网页同时出现在搜索结果的第一页。
同一个来源的文章
一个记者写的一篇新闻,可能被多个媒体使用,每一个可能只是将这篇文章做了一些修改,
比如删除掉了一些段落,添加了他们自己的内容,内容周边环绕了他们的logo,广告,链接到他们自己网站的其他文章。Google新闻应该能够找到这个文章的所有版本,并只显示出一个,这需要查找两篇文章的文本相似度。
3.1.3 基于相似集合的协同过滤
另一类使用集合相似度的应用是协同过滤,协同过滤描述了把具有相似口味的用户的items推荐给其他用户。
在线购物
比如在亚马逊有上百万的用户和物品,记录了哪些用户买了哪些物品,如果两各个人购买的物品集合具有很高的Jaccard相似度,那么这两个客户也是相似的。
除了根据Jaccard相似度,还需要一些其他的工具,比如两个客户都喜欢看科幻小说,但是他们购买了不同的小说,具有很少的重复,那么我们还需要通过组合相似度和聚类来做协同过滤。
电影分级评分
NetFlix记录了哪些客户租了哪些电影,已经他们对这些电影的评分,我们可以认为如果相同的顾客对不同电影评分比较高的,它们具有很大的相似性。
bag相似度:
{a, a, a, b} 与{a, a, b, b, c} 的相似度为 1/3.
3.2 文档指纹签名
用文档的一个短的字符串集合来描述文档词法上的相似度,是非常有效的方法。这种方式,文档公用一些短的句子或者短语,这样这些文档的字符串集合会有很多的共同元素,即使这些句子出现的顺序不同。
3.2.1 k-shingles
一个文档是由字符组成的字符串,k-shingles表示文档中任意长度为k的字串集合。
我们还可以将他们出现的次数关联上去。比如文档D为abcdabd字符串,那么2-shingles为
{ab,bc,cd,da,bd}。ab出现了两次但是没有在2-shingles出现过两次。也可以采用bag的方式,对出现的个数进行技术。
对于空白字符的处理,最好的办法是将所有的连续空白都替换为单个空格。
3.2.2如何选择k
我们可以取k为任意常数,然而,如果我们选择k太小,则会有非常多的k-shingles出现在大多数的文章中。那么他们的指纹集合的Jaccard相似度就会很高。如果我们取k=1,那么大多数的网页中都含有非常多的共同的字符,很少的其他字符,那么所有的网页都是相似的。
k的长度应该根据文档的长度和字符集的大小来选定,但是最重要的是:k应该选择让任意的指纹在任意的文档中都应该是很低的概率
如果我们的语料是emails,那么选择k是5是一个很好的选择。对于大的文档,比如研究论文,可以选择k=9.
3.2.3 哈希指纹
除了使用子串进行指纹签名,我们还可以使用hash函数,他可以把长度为k的字符串映射到
一些桶中,将桶的数字作为指纹。这样一个文档的集合可以表示为一个或者多个k-shingles出现桶的数字。我们可以为文档构建9-shingles,然后将每一个9-shingles映射到0~2^32-1之间桶的标号中。这样每一个指纹只有4字节而不是9个了。这样不仅空间被压缩了,而且操作是单个机器字的操作。
我们可以使用9-shingles,然后将它hash成4个字节,这样文档的区分度就会别使用4-shingles要高,虽然在空间消耗上是一样的。
3.2.4 根据单词构建指纹
一个好的方式是,首先定义文中的停顿词,然后取出停顿词后面的两个单词,这样可以组成很好的指纹信息。这个在网页去重中非常有用,因为导航、边框都是很短的很少停顿词的句子,而正文中有很多的停顿词,这样可以去除非正文部分的干扰,并且获得比较好的效果。
3.3 保持相似性的集合摘要(Similarity-Preserving Summaries of Sets)
指纹集合是很大的,即使把他们hash为4个字节,它们所占的空间也是原来文档大小的4倍。如果我们数以百万的文档集合,那么在内存中存储所有的指纹集合是不可能的。
我们本节的目标是将很大的集合用很小的签名表示。签名的重要属性必须能够通过比较签名就能够估计其所表示集合的Jaccard 相似度。虽然签名不能得到精确的相似度,但是签名集合越大,估计出来的值越准确。
3.3.1 基于矩阵的集合表示法
在我们解释如何从大的集合构建小的签名之前,一个非常有用的方法将一组集合可视化为特征矩阵。矩阵的列和集合对应,行和所有集合的元素对应。如果第r行的元素出现在第c个集合,那么第r行c列的元素值为1,否则为0.
特征矩阵很容易可视化数据,但是不适合存储,因为矩阵一般是稀疏矩阵。
例如:元素集合{a,b,c,d,e},其中s1={a,d},s2={c},s3={b,d,e},s4={a,c,d}
那么这四个集合的矩阵表示为:

3.3.2 Minhashing
在本节,我们首先学习计算minhash的原理,然后在下面的章节我们介绍在实际中如何近似计算minhash的值。要minhash一个由特征矩阵的一列表示的集合,从这些行的全排列中选择一种排列。任何一列的minhash值是排列的次序中数字第一行是1的行号。
例子:比如我们要从前面矩阵中选择beadc次序的行,选择的这个排列定义了minhash函数h,他将集合映射到行。我们根据h计算minhash的值,我们发现当一个不是零的行是行a,因此
h(S1) = a,同样可以得到h(S2) = c, h(S3) = b, h(S4) = a.

虽然对一个很大特征矩阵进行全排列是不实际的,但minhash函数隐式的重新调整矩阵的行序。
3.3.3 Minhash和Jaccard相似度
minhash和其集合的Jaccard相似度有着重要的联系:两个集合的随机的一个行排列的minhash值相等的概率和两个集合的Jaccard相似度相等。
为什么呢?如果我们限制于集合s1和s2,那么行可以分成三类:
1.类型X 两列值都是1
2.类型Y 一列是1,另一列是0
3.类型Z 两列都是0
由于矩阵是稀疏的,所以大多数的行是类型Z。类型X和类型Y的函数既决定了SIM(S1,S2)
又决定了h(s1)=h(s2).我们假设有x行是类型X的,y行是类型y的。那么SIM(S1,S2) = x/(x+y).因为x是S1 ∩ S2的大小,而x + y是S1 ∪ S2大小.
现在我们考虑h(s1) = h(s2)的概率。如果我们假设我们随机排列行,那么我们从上到下,
在遇到类型Y之前遇到类型X的概率是x/(x+y)。如果我们从上往下遇到的除了Z类型的第一行
是X类型的行,那么h(s1) = h(s2).
另一方面,如果除了类型Z,我们第一次遇到的类型是类型Y,那么是1的集合,其对应行数,就是minhash值。是0的集合仍然需要向下才能找到为1的行,因此如果我们第一次遇到的是类型Y那么h(s1) <> h(s2)。所以h(s1) = h(s2)的概率是 x / (x + y),这也是s1和s2的Jaccard相似度。
3.3.4 Minhash签名
我们重新考虑一组集合,有特征矩阵M表示,为了代表这些集合,我们从M行的排列中选择n个
,可能是100或者几百个排列。有这些排列组成了minhash函数h1,h2,...,hn。
从由列表示的集合S,构建其minhash签名,组成向量[h1(s),h2(s),...,hn(s)]。我们把这些
hash值作为列,因此我们从矩阵M中得到了签名矩阵,矩阵M的第i个列被第i列的minhash签名所代替。
这个签名矩阵具有和原来矩阵一样的列M,但是只有n行,所以远远小于原来的矩阵大小。
3.3.5 计算Minhash签名
显式的计算一个很大的特征矩阵的排列是不可行的,即使从几百万或者几十亿的行中选择一个随机的排列也是非常耗时的。排列矩阵在概念上可以,但是不可以在实际中实现。
幸运的是,通过一个随机hash函数将行号和具有和行数相同的桶进行映射,可以有效的模拟随机排列。一个hash函数将0...k-1的数字映射到0...k-1的桶中,典型的可能出现不同的数字会映射到相同的桶中,然后其他的一些桶没有被映射。然而只要k足够大,并且没有太多的冲突,这个不同是不重要得,我们可以维护一个hansh函数h,他排列行r到h(r)的位置上。
方法一.行hash
选择k个hash函数,计算行号的hash值,然后按照值进行排序,得到随机的排列。
方法二 One-pass的实现
这样我们可以不去选择n个随机的排列,而是选择n个随机函数h1,h2...,hn,我们可以通过现在的顺序来构建签名矩阵,假设SIG(i,c)是签名矩阵的第i个hash函数和第c列,最初,我们设置所有的SIG(i,c)为无穷大,我们按照下面的方法来处理行r
1.计算h1(r),h2(r),...,hn(r)
2.对于所有的列c:
(a)如果(c,r)是0,不做任何操作
(b)如果(c,r)是1,那么对于i=1,2,...,n设置SIG(i,c)为当前的SIG(i,c)和hi(r)的最小值。
发表评论
-
推荐系统note
2013-06-24 18:36 0推荐系统 第一章 Introduction 1.1基本概念 1 ... -
[zz]推荐系统-从入门到精通
2013-04-20 14:38 2511为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌 ... -
[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
2012-11-30 13:13 12288牛人主页(主页有很多论文代码) Serge ... -
计算广告学
2012-08-12 13:53 0计算广告学一: 1、核 ... -
期望最大(EM)算法推导
2012-08-05 19:54 8459X是一个随机向量,我们希望找到 使得取得最大值,这就是关于的最 ... -
Large-Scale Support Vector Machines: Algorithms and Theory
2012-04-12 00:32 0支持向量机是一种流行 ... -
[zz]数据挖掘邻域的5篇经典文章
2011-05-12 13:50 1814转载自 http://www.dataminingblog.c ... -
大规模数据挖掘-第三章 学习笔记二
2011-05-02 21:12 35073.4 文档局部性敏感哈希 ... -
HtmlUnit解析html会丢掉不可见的Element
2010-01-15 21:06 2926最近使用htmlunit来作为后端抽取数据,htmlunit的 ... -
信息抽取思考笔记
2009-12-07 21:48 1739信息抽取的两种方式:基于内嵌浏览器的navigation的抽取 ... -
基于模式发现的信息抽取(1)
2009-12-03 23:37 2699IEPAD:基于模式发现的 ... -
分享一本文本挖掘的书
2009-09-21 23:28 1718好不容易从国外找到的,有需要的可以下来看看。 The inf ... -
《Web Data Mining Exploring Hyperlinks, Contents, and Usage Data》列入读书单中
2009-09-10 18:00 2069liubing同学写的,web content mining的 ... -
机器学习的开放源代码项目mahout
2009-04-16 23:05 5458最近看了刚发布的开放源代码项目mahout,实现了很多机器学习 ... -
网页分析/挖掘中常用数据结构和算法
2008-12-30 11:28 2773网页在render的时候都生成DOM树的,所以树形的数据结构用 ... -
一个很好的Machine Learning的开源工具网站
2008-12-30 10:41 2240mloss.org http://www.mloss.org/ ... -
基于firefox浏览器的Deep Web Navigation总结
2008-12-29 12:24 2227先占个位置,这两天准备回家,办手续,定房子什么的,比较忙,先提 ... -
一份夭折了的Information Extraction的总体设计
2008-12-26 17:46 1313由于项目提前closed,我的一个Information Ex ... -
Programming Collective Intelligence读书笔记三 推荐系统(续)
2008-12-26 17:14 1927根据前面的两个相似度 ... -
今天听了fanwei博士的Data Mining的讲座
2008-12-26 12:41 2077牛人,哥伦比亚大学PH.D,在 IBM T.J.Watson ...
相关推荐
Tripple Farm:Match 3 Combination Game Complete Project 合成小镇三消Unity合成消除游戏项目游戏插件模版C# 支持Unity2020.3.4或更高 您知道像三合镇这样的著名益智游戏,并且您想制作一个自己的游戏。就是这样。这个包正好适合您。 这是一个完整的项目,您可以在零分钟内将其上传到 appstore 或 googleplay 商店。 基本规则: 3个或以上相同的道具可以匹配升级为新的道具。动物如果被困住,也可以合并。 羽毛: -移动(android/ios)就绪。 - 包含所有源代码。 -超过 12 座建筑/军团需要升级。 -三种特殊物品可以提供帮助。 - 三个不同的主题(场景和动物) -unity iap 支持 -Unity UI -广告位已准备好 -包含详细文档
内容概要:本文档是一份针对Java初学者的基础测试题,分为不定项选择题、简答题和编程题三大部分。选择题涵盖标识符、数组初始化、面向对象概念、运算符优先级、循环结构、对象行为、变量命名规则、基本
内容概要:本文详细介绍了如何利用MATLAB进行机器人运动学、动力学以及轨迹规划的建模与仿真。首先,通过具体的代码实例展示了正运动学和逆运动学的实现方法,包括使用DH参数建立机械臂模型、计算末端位姿以及求解关节角度。接着,讨论了雅克比矩阵的应用及其在速度控制中的重要性,并解释了如何检测和处理奇异位形。然后,深入探讨了动力学建模的方法,如使用拉格朗日方程和符号工具箱自动生成动力学方程。此外,还介绍了多种轨迹规划技术,包括抛物线插值和五次多项式插值,确保路径平滑性和可控性。最后,提供了常见仿真问题的解决方案,强调了在实际工程项目中需要注意的关键点。 适合人群:对机器人控制感兴趣的初学者、希望深入了解机器人运动学和动力学的学生及研究人员、从事机器人开发的技术人员。 使用场景及目标:① 学习如何使用MATLAB进行机器人运动学、动力学建模;② 掌握不同类型的轨迹规划方法及其应用场景;③ 解决仿真过程中遇到的各种问题,提高仿真的稳定性和准确性。 其他说明:文中提供的代码片段可以直接用于实验和教学,帮助读者更好地理解和掌握相关概念和技术。同时,针对实际应用中的挑战提出了实用的建议,有助于提升项目的成功率。
包括:源程序工程文件、Proteus仿真工程文件、配套技术手册等 1、采用51/52单片机作为主控芯片; 2、发送机:18B20测温、开关模拟灯光,发送数据; 3、接收机:接受数据、12864液晶显示;
内容概要:本文探讨了在微电网优化中如何处理风光能源的不确定性,特别是通过引入机会约束和概率序列的方法。首先介绍了风光能源的随机性和波动性带来的挑战,然后详细解释了机会约束的概念,即在一定概率水平下放松约束条件,从而提高模型灵活性。接着讨论了概率序列的应用,它通过对历史数据分析生成多个可能的风光发电场景及其概率,以此为基础构建优化模型的目标函数和约束条件。文中提供了具体的Matlab代码示例,演示了如何利用CPLEX求解器解决此类优化问题,并强调了参数选择、模型构建、约束添加以及求解过程中应注意的技术细节。此外,还提到了一些实用技巧,如通过调整MIP gap提升求解效率,使用K-means聚类减少场景数量以降低计算复杂度等。 适合人群:从事电力系统研究、微电网设计与运营的专业人士,尤其是那些对风光不确定性建模感兴趣的研究者和技术人员。 使用场景及目标:适用于需要评估和优化含有大量间歇性可再生能源接入的微电网系统,旨在提高系统的经济性和稳定性,确保在面对风光出力波动时仍能维持正常运作。 其他说明:文中提到的方法不仅有助于学术研究,也可应用于实际工程项目中,帮助工程师们制定更为稳健的微电网调度计划。同时,文中提供的代码片段可供读者参考并应用于类似的问题情境中。
linux之用户管理教程.md
内容概要:本文详细介绍了如何利用组态王和西门子S7-200 PLC构建六层或八层电梯控制系统。首先进行合理的IO地址分配,明确输入输出信号的功能及其对应的物理地址。接着深入解析了PLC源代码的关键部分,涵盖初始化、呼叫处理、电梯运行逻辑和平层处理等方面。此外,提供了组态王源代码用于实现动画仿真,展示了电梯轿厢的画面创建及动画连接方法。最后附上了详细的电气原理图和布局图,帮助理解和实施整个系统架构。 适合人群:从事工业自动化控制领域的工程师和技术人员,尤其是对PLC编程和人机界面开发感兴趣的从业者。 使用场景及目标:适用于教学培训、工程项目实践以及研究开发等场合。旨在为相关人员提供一个完整的电梯控制系统设计方案,便于他们掌握PLC编程技巧、熟悉组态软件的应用,并能够独立完成类似项目的开发。 其他说明:文中不仅包含了理论知识讲解,还分享了许多实际操作经验,如解决编码器丢脉冲的问题、优化平层停车精度的方法等。同时强调了安全性和可靠性方面的考虑,例如设置了多重保护机制以确保系统稳定运行。
在工业生产和设备运行过程中,滚动轴承故障、变压器油气故障等领域的数据分类与故障诊断至关重要。准确的数据分类与故障诊断能够及时发现设备潜在问题,避免故障恶化导致的生产事故与经济损失。LSTM能够捕获时序信息,马尔可夫场(MTF)能够一维信号转换为二维特征图,并结合CNN学习空间特征,MTF-1D-2D-CNN-LSTM-Attention模型通过将一维时序信号和二维图像融合,融合不同模态优势,并引入多头自注意力机制提高泛化能力,为数据分类与故障诊断提供了新的思路。实验结果表明,该模型在分类准确率、鲁棒性和泛化能力方面具有显著优势。多模态融合算法凭借其创新点和实验验证的有效性,在滚动轴承故障、变压器油气故障等领域展现出广阔的应用前景,有望推动相关领域故障诊断技术的进一步发展。 关键词:多模态融合;故障诊断;马尔可夫场;卷积神经网络;长短期记忆神经网络 适用平台:Matlab2023版本及以上。实验硬件设备配置如下:选用高性能计算机,搭载i7处理器,以确保数据处理和模型训练的高效性;配备16GB的内存,满足大规模数据加载和模型运算过程中的内存需求;使用高性能显卡,提供强大的并行计算能力,加速深度学习模型的训练过程。实验参数的选择依据多方面因素确定。
内容概要:本文档提供了一个面试模拟的指导框架,旨在为用户提供一个真实的面试体验。文档中的面试官名为Elian,被设定为性格温和冷静且思路清晰的形象,其主要职责是根据用户提供的简历信息和应聘岗位要求,进行一对一的模拟面试。面试官将逐一提出问题,确保每次只提一个问题,并等待候选人的回答结束后再继续下一个问题。面试官需要深入了解应聘岗位的具体要求,包括但不限于业务理解、行业知识、具体技能、专业背景以及项目经历等方面,从而全面评估候选人是否符合岗位需求。此外,文档强调了面试官应在用户主动发起提问后才开始回答,若用户未提供简历,面试官应首先邀请用户提供简历或描述应聘岗位; 适用人群:即将参加面试的求职者,特别是希望提前熟悉面试流程、提升面试技巧的人士; 使用场景及目标:①帮助求职者熟悉面试流程,提高应对实际面试的信心;②通过模拟面试,让求职者能够更好地展示自己的优势,发现自身不足之处并加以改进; 其他说明:此文档为文本格式,用户可以根据文档内容与面试官Elian进行互动,以达到最佳的模拟效果。在整个模拟过程中,用户应尽量真实地回答每一个问题,以便获得最贴近实际情况的反馈。
招聘技巧HR必看如何进行网络招聘和电话邀约.ppt
内容概要:本文详细介绍了利用三菱PLC(特别是FX系列)和组态王软件构建3x3书架式堆垛式立体库的方法。首先阐述了IO分配的原则,明确了输入输出信号的功能,如仓位检测、堆垛机运动控制等。接着深入解析了梯形图编程的具体实现,包括基本的左右移动控制、复杂的自动寻址逻辑,以及确保安全性的限位保护措施。还展示了接线图和原理图的作用,强调了正确的电气连接方式。最后讲解了组态王的画面设计技巧,通过图形化界面实现对立体库的操作和监控。 适用人群:从事自动化仓储系统设计、安装、调试的技术人员,尤其是熟悉三菱PLC和组态王的工程师。 使用场景及目标:适用于需要提高仓库空间利用率的小型仓储环境,旨在帮助技术人员掌握从硬件选型、电路设计到软件编程的全流程技能,最终实现高效稳定的自动化仓储管理。 其他说明:文中提供了多个实用的编程技巧和注意事项,如避免常见错误、优化性能参数等,有助于减少实际应用中的故障率并提升系统的可靠性。
内容概要:本文详细探讨了利用COMSOL进行电弧放电现象的模拟,重点在于采用磁流体方程(MHD)来耦合电磁、热流体和电路等多个物理场。文中介绍了关键的数学模型如磁流体动力学方程、热传导方程以及电路方程,并讨论了求解过程中遇到的技术难题,包括参数敏感性、求解器选择、网格划分等问题。此外,作者分享了许多实践经验,比如如何处理不同物理场之间的相互作用,怎样避免数值不稳定性和提高计算效率。 适用人群:适用于从事电弧放电研究的专业人士,尤其是那些希望通过数值模拟深入了解电弧行为并应用于实际工程项目的人群。 使用场景及目标:①帮助研究人员更好地理解和预测电弧放电过程中的各种物理现象;②为工程师提供优化电气设备设计的方法论支持;③指导使用者正确配置COMSOL软件的相关参数以确保高效稳定的仿真结果。 其他说明:尽管存在较高的计算复杂度和技术挑战,成功的电弧放电仿真能够显著提升对这一重要物理过程的认识水平,并促进相关领域的技术创新和发展。
内容概要:本文详细介绍了如何利用粒子群优化算法(PSO)改进极限学习机(KELM),以提升其在多维输入单维输出数据处理任务中的性能。首先简述了KELM的工作原理及其快速训练的特点,接着深入探讨了PSO算法的机制,包括粒子的速度和位置更新规则。然后展示了如何将PSO应用于优化KELM的关键参数,如输入权值和隐含层偏置,并提供了具体的Python代码实现。通过对模拟数据和实际数据集的实验对比,证明了PSO优化后的KELM在预测精度上有显著提升,尤其是在处理复杂数据时表现出色。 适合人群:对机器学习尤其是深度学习有一定了解的研究人员和技术爱好者,以及从事数据分析工作的专业人士。 使用场景及目标:适用于需要高效处理多维输入单维输出数据的任务,如时间序列预测、回归分析等。主要目标是通过优化模型参数,提高预测准确性并减少人工调参的时间成本。 其他说明:文中不仅给出了详细的理论解释,还附上了完整的代码示例,便于读者理解和实践。此外,还讨论了一些实用技巧,如参数选择、数据预处理等,有助于解决实际应用中的常见问题。
内容概要:本文介绍了利用粒子群算法(PSO)解决微网优化调度问题的方法。主要内容涵盖微网系统的组成(风力、光伏、储能、燃气轮机、柴油机)、需求响应机制、储能SOC约束处理及粒子群算法的具体实现。文中详细描述了目标函数的设计,包括发电成本、启停成本、需求响应惩罚项和SOC连续性惩罚项的计算方法。同时,阐述了粒子群算法的核心迭代逻辑及其参数调整策略,如惯性权重的线性递减策略。此外,还讨论了代码调试过程中遇到的问题及解决方案,并展示了仿真结果,证明了模型的有效性和优越性。 适合人群:从事电力系统优化、智能算法应用的研究人员和技术人员,特别是对微网调度感兴趣的读者。 使用场景及目标:适用于研究和开发微网优化调度系统,旨在提高供电稳定性的同时降低成本。具体应用场景包括但不限于分布式能源管理、工业园区能源调度等。目标是通过合理的调度策略,使微网系统在满足需求响应的前提下,实现经济效益最大化。 其他说明:本文提供的Matlab程序具有良好的模块化设计,便于扩展和维护。建议读者在理解和掌握基本原理的基础上,结合实际情况进行改进和创新。
KUKA机器人相关资料
基于多智能体的高层建筑分阶段火灾疏散仿 真及策略研究.pdf
Iterative Time Series Imputation by Maintaining Dependency Consistency (ACM TKDD 2024)
内容概要:本文详细探讨了带同步整流桥的交错PFC(功率因数校正)电路的设计与仿真实现。交错PFC通过多路PFC电路交错工作,降低了输入电流纹波,提高了功率密度。同步整流桥采用MOSFET代替传统二极管,减少了整流损耗,提升了效率。文中提供了关键代码片段,包括PWM控制、同步整流桥控制逻辑、电流环控制等,并介绍了如何在MATLAB/Simulink中搭建仿真模型,验证设计方案的有效性。此外,还讨论了仿真过程中遇到的问题及其解决方案,如死区时间处理、电流采样精度、负载突变应对等。 适合人群:从事电力电子设计的研究人员和技术工程师,尤其是对PFC技术和同步整流感兴趣的从业者。 使用场景及目标:适用于研究和开发高效的电源管理系统,旨在提高电能利用率,减少谐波污染,优化电源性能。目标是通过仿真实验验证设计方案的可行性,最终应用于实际硬件开发。 其他说明:文章强调了仿真与实际调试的区别,提醒读者在实际应用中需要注意的细节,如电流采样精度、死区时间和负载突变等问题。同时,提供了具体的代码实现和仿真技巧,帮助读者更好地理解和掌握这一复杂的技术。
内容概要:本文详细探讨了MATLAB环境下冷热电气多能互补微能源网的鲁棒优化调度模型。首先介绍了多能耦合元件(如风电、光伏、P2G、燃气轮机等)的运行特性模型,展示了如何通过MATLAB代码模拟这些元件的实际运行情况。接着阐述了电、热、冷、气四者的稳态能流模型及其相互关系,特别是热电联产过程中能流的转换和流动。然后重点讨论了考虑经济成本和碳排放最优的优化调度模型,利用MATLAB优化工具箱求解多目标优化问题,确保各能源设备在合理范围内运行并保持能流平衡。最后分享了一些实际应用中的经验和技巧,如处理风光出力预测误差、非线性约束、多能流耦合等。 适合人群:从事能源系统研究、优化调度、MATLAB编程的专业人士和技术爱好者。 使用场景及目标:适用于希望深入了解综合能源系统优化调度的研究人员和工程师。目标是掌握如何在MATLAB中构建和求解复杂的多能互补优化调度模型,提高能源利用效率,降低碳排放。 其他说明:文中提供了大量MATLAB代码片段,帮助读者更好地理解和实践所介绍的内容。此外,还提及了一些有趣的发现和挑战,如多能流耦合的复杂性、鲁棒优化的应用等。
内容概要:本文详细介绍了如何在Simulink中构建永磁同步电机(PMSM)无位置传感器的磁场定向控制(FOC)系统。主要内容涵盖双闭环PI调节器的设计、SVPWM调制方法、坐标变换、滑模观测器用于无位置估算以及各环节常见问题及其解决方案。文中提供了具体的MATLAB代码示例,如Clarke变换、SVPWM扇区判断、PI调节器抗饱和处理等,并分享了许多实用的调试技巧,如电流环积分限幅、SVPWM扇区判断优化、滑模观测器增益选择等。 适合人群:具有一定电机控制基础的研究人员和技术工程师,尤其是从事电力电子、自动化控制领域的专业人士。 使用场景及目标:适用于希望深入理解并掌握PMSM无位置传感器FOC控制系统的开发者。主要目标是在Simulink环境中搭建完整的FOC控制系统,解决实际应用中的各种技术难点,提高系统的稳定性和精度。 其他说明:文章强调了仿真与实际硬件之间的差异,指出了一些常见的陷阱和应对措施。同时,作者分享了很多个人实践经验,使得复杂的技术概念更加通俗易懂。