由此引出网络挖掘的概念,它指的是数据挖掘技术在网络信息处理上的应用。信息化的逐步深入和可获取数据爆炸性的增长,为网络挖掘的发展提供了足够的沃土,引起多个学科的关注和涉足,如社会组织学、信息管理学和计算机科学。随着大数据时代的来临,旨在快速、高效获取知识的网络挖掘将获取的巨大的发展空间,成为一门真正的科学。
网络挖掘的重要人物有卡内基梅隆大学的Christos Falousos、康奈尔大学的John Kleinberg、Jure Leskovec等,数据挖掘领域的宗师级人物韩家炜近几年也将研究重点投入到网络分析中来,并提出异构信息网络挖掘将成为数据挖掘的下一个前沿领域。前不久在北京举行的数据挖掘顶级会议ACM SIGKDD中,主办方开设了10余个与社会网络相关的workshop,社会网络研究的火爆程度,可见一斑。值得我们骄傲的是,该领域华人科学家有着非常强劲的实力,难怪数据挖掘领域的泰斗人物Christos Falousos夸张地说,这个领域只有他不是中国人了。
具体说一下网络挖掘,常用的网络度量指标有最短路径、网络直径和中心度,最短路径指两个节点之间最短的连线序列,根据图的不同,“最短”的定义也不同,对于无权图,最短即连线的数目最少,对于有权图,最短指这两个节点之间连线的权重之和最小;而网络直径就是一个图中最大的最短路径;中心度分三种类型,依次是normalized centrality degree、betweenness centrality和closeness Centrality,具体来说,normalized centrality degree通过与某节点直接相邻的其他节点数目来反映节点的重要性,betweenness centrality衡量的是这个节点在整个图中的不可替代性,closeness Centrality说的是该点到图中其他点之间最短路径的平均距离,一般来说,这三个中心度之间的关系是正相关,如果不是这样,那往往说明网络中发生了一些有趣的事情,值得你去跟进研究。
再说一下当前网络挖掘的最热点领域,个人感觉非网络演化莫属了。这方面的研究从2004年起逐步增多,通常的研究方法是观察网络属性比如密度、直径、中心度、组件、社区等属性随时间的变化情况,通过研究,学界得出一些非常有趣的结论,比如专利引用网络的节点和连线之间存在power law关系,随着时间发展,连线数量的增长速度大于节点数量的增速,而整个专利引用网络直径则不断减小,这种现象映射到现实中,反映了不同技术领域的研发工作关联愈发密切,多个技术领域的交叉点往往是新技术的高发区。当然,仅仅靠观察各个指标随时间的变化情况来研究网络演化,距离真正的科研工作还很远,我们还需要提出数学模型来刻画网络变化中的出现的各种特征。以往的研究工作中提出的数学模型以及这些模型所覆盖的网络特征如下表所示:
|
Random attachments |
Preferential attachments |
Copying model |
Community Guided attachment |
Forest fire model |
Power-law degree distribution |
× |
∨ |
∨ |
∨ |
∨ |
community |
× |
× |
∨ |
× |
∨ |
Densification power-law |
× |
× |
× |
∨ |
∨ |
Shrinking diameter |
× |
× |
× |
× |
∨ |
从上表可看出,虽然Forest Fire model同时覆盖了社会网络的四个重要特征,但仍存在重要不足,它没有表现出社会网络的Small world特征、平均路径长度变化特征、网络集中度变化特征等等,可见,未来的研究中这方面仍然有大量的工作需要完成。
另一个值得关注的网络演化问题是社区演化,所谓社区,即有共同特征的成员所组成的集合。随时间发展,不同社区之间及社区内部的成员特征会发生变化,从而产生社区分裂、融合、消亡、产生等现象,研究社区演化,对理解进而掌握社会发展、科技进步、舆论动向等都具有重要意义。社区演化包括两个部分,一是社区的产生,二是社区的演化。社区的产生就是通过各种聚类方法将成员聚集成不同的社区,社区内部成员关系密切,社区之间成员关系稀疏。传统的聚簇方法有K-Means、K-Medoids等算法,但此类算法的缺陷是它只将距离较近的具有一定相似度的成员聚成一类,而对距离较远的成员无能为力,更好的聚类方法是Spectral Clustering,它的总体思路是将特征空间降维后再聚类,这种聚类方法可以完全克服K-Means算法的缺点,但它对学习者的数学基础(如高等数理统计、矩阵分析等)有较高要求。Spectral Clustering算法是当前聚类算法研究的热点,今年KDD会议关于聚类的workshop中,关于Spectral Clustering的论文就占到了一半。
谈到该领域的重要文章,我觉得可以重点关注下Jure Leskovec的论文,他的研究偏重实践多点,此君虽然英语口音极重,但文章是不折不扣的精品;相比之下,Michael Jordon的文章更加偏理论、偏数学,深度上要更深一些;说到最近的文章,荣获KDD’2012 Best Student Paper Award的两篇文章给人的印象很深刻,其中Integrating Meta-Path Selection with User-Guided Object Clustering in Heterogeneous Information Networks讲述在影响网络变化的诸多因素中,如何筛选出用户最关注的因素,另一篇文章Intrusion as (Anti)social Communication: Characterization and Detection,用于检测网络入侵,作者的思路是入侵元素在入侵前,与业已形成的网络社区结构相比而言特征明显,可以作为入侵检测的判别标准。这两篇文章给我总的印象是能够准确抓住当前科研前沿的关键问题,并给出漂亮的解答,它们不仅对自身领域,而且对其他领域的工作有很大的推动作用,比如第二篇文章对于情报学领域的突破性技术识别研究就很有建设性。
最后再谈一下网络分析工具,较有代表性是pajek、Guess、NetLogo和Igraph。pajek可免费获取,它内置的算法多、功能强大,但缺点也同样明显,它的界面操作不便、图形效果丑陋,而且不支持扩展;相比之下Guess、Igraph具有良好的可扩展性,很容易与当前统计分析技术结合使用,Netlogo为网络建模提供了良好的支持,并且它支持网络演化过程的动态展示,因此可以制作出一些不错的动画效果。
相关推荐
在数据认识部分,学生会了解数据对象和属性类型,学习基本统计描述以及衡量数据相似性和差异性的方法,同时掌握数据可视化的初步技巧。 数据预处理是关键环节,课程将教授如何清洗、整合、转换和减少数据,以适应...
通过对这一章的学习,读者应能建立起对数据挖掘的基本认识,理解其基本流程和任务类型,为后续章节深入学习打下坚实基础。通过使用MindMaster创建的思维导图,可以帮助读者更直观地掌握知识框架,提升学习效率。
大数据,这个概念随着互联网的发展而兴起,其核心价值在于对海量数据进行存储和分析,以挖掘潜在的信息价值。大数据的四个关键特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性),...
在分析中医流感症状的过程中,陆浩、朱婷等人撰写的论文《论文研究-可视化数据挖掘在中医流感症状分析中的应用》(以下简称“论文”),利用社会网络分析方法进行了初步探索,并得出了一些有价值的研究成果。...
数据理解阶段则是从数据收集开始,熟悉和识别数据质量,探索初步数据认识,挖掘隐藏信息中的深层含义。 文章提到,过去十年间,中国农村信用合作社信息化发展迅速,从最初的电子化业务处理到现在的海量数据集中,...
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的实际应用数据中提取隐含在其中的、人们事先不知道但又潜在有用的、并能被人们认识的信息和知识的过程。在教学设备监测预警平台中,数据挖掘被用于...
通过上述案例的分析,我们不仅了解了数据挖掘系统的基本构成和运作机制,还深刻认识到其在现代社会中的重要价值。未来,随着AI技术的不断发展,数据挖掘系统将更加智能化,为人类带来更多的便利和创新。然而,数据...
课程涵盖了从数据预处理到模型构建、评估的全过程,涉及到多个关键领域,如数据分析、可视化、预处理、回归分析、关联规则挖掘、分类与预测、聚类分析、神经网络和深度学习以及离群点检测。 课程的基础是概率论与...
使用聚类分析可以帮助研究者对问题有一个初步的了解,通过分类这些聚类,可以对问题有更深入的认识。聚类的目的在于增强对客观现实的理解,是进行概念描述和偏差分析的先决条件。 CRM(客户关系管理)的概念关注于...
9. **数据挖掘基础**:简述数据挖掘的基本概念、流程(CRISP-DM)以及SPSS中数据挖掘工具的使用,如决策树、随机森林、神经网络等。 通过这9个章节的学习,读者将能够熟练运用SPSS进行数据预处理、统计分析、结果...
- **认识信息收集的重要性:** 在网络安全领域,信息收集是攻击者进行初步侦察的第一步。通过收集目标系统的相关信息,攻击者可以更好地规划后续的攻击策略。 - **掌握信息收集的内容、方法和技术:** 包括但不限于...
APT(Advanced Persistent Threat)攻击是一种由高度组织和有资金支持的威胁参与者进行的长期、有针对性的网络攻击。...通过分析和学习提供的资源,我们可以提高对网络威胁的认识,构建更强大的安全防线。
通过本次实验,不仅掌握了信息收集的基本技术和工具,还加深了对网络安全的认识。信息收集作为网络攻防的重要环节,在实际工作中具有广泛的应用价值。未来的学习和实践中,将继续关注并探索更多高级的信息收集技术和...
【Python网络爬虫实习报告】 本实习报告详细探讨了Python在网络爬虫领域的应用,通过实践操作,阐述了网络爬虫的基本原理、历史...此外,对数据的清洗、存储和展示也有了初步的认识,为今后的数据分析工作奠定了基础。
网络爬虫,又称为网页抓取器或数据挖掘工具,是一种自动浏览互联网并收集信息的程序。在Python编程语言中,爬虫的开发具有丰富的库支持,使得这一过程变得相对简单。本教程将带你深入理解网络爬虫的基本概念,并通过...
【互联网金融背景下的大学生创业初步研究】 随着2013年以来互联网金融的崛起,它对我国经济生活产生了深远影响,成为不可逆转的趋势。大学生作为互联网金融的重要用户群体,同时也是创新创业的生力军。互联网金融...
数据理解阶段涉及对数据进行初步探索,从而对数据的质量、内容等有一个清晰的认识;数据准备阶段包括数据清洗、数据集成、数据转换和数据归约,以准备适合后续分析的数据;建模阶段选择合适的数据挖掘方法并应用于...
IBM的4V模型是初步理解大数据的起点,而维克托·迈尔-舍恩伯格在《大数据时代》中的观点则深化了我们对大数据思维方式的理解,强调全面样本、效率优先和相关性分析的重要性。 【大数据的价值体现】 大数据的核心...