“大数据时代”已经来临,并对各个领域都产生了深远的影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。
数据聚类找出霍乱病因
一种重要的数据汇总形式是聚类,在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。
一个利用聚类来解决问题的著名实例发生在很久以前的伦敦,在整个问题的解决中并没有使用计算机 。内科医生John Snow在处理霍乱爆发时在城市地图上标出了病例的发生地点。图1-1给出了该图的一个小片段,展示了病例的传播情况。
图1-1 在伦敦市地图上标出的霍乱病例的传播情况示意图
图中显示,病例聚集在某些交叉路口。这些路口的水井已经被污染,离这些水井最近的居民染上了疾病,而清洁的水井附近的居民则没有染病。如果没对这些数据进行聚类,霍乱的病因就难以揭开。
——摘自《大数据:互联网大规模数据挖掘与分布式处理》
书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:
- 分布式文件系统以及Map-Reduce工具;
- 相似性搜索;
- 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
- 搜索引擎技术,如谷歌的PageRank;
- 频繁项集挖掘;
- 大规模高维数据集的聚类算法;
- Web应用中的关键问题:广告管理和推荐系统。
作者简介
Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。
Jeffrey David Ullman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人Sergey Brin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。
分享到:
相关推荐
大数据(Big Data)是指在互联网、社交媒体、电子商务等领域中不断产生的海量数据集合。这些数据以惊人的速度增长,且具有以往无法比拟的体量和复杂性。大数据这一概念最早在2008年由麦肯锡咨询公司提出,当时所指的...
在移动网络、物联网、云计算等技术的广泛运用下,数据呈现出“爆炸式”的增长,“大数据”(Big Data)成为社会关注的焦点。 数据素养教育的研究起源于美国,从2000年代开始,美国国家科学基金会(National Science...
进入2012年以来,大数据(Big Data)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据。它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,进入美国白宫网站的新闻,现身在国内...
大数据时代的降临,与大数据(big data)相关联的系列技术不断发展,和商业领域、公共领域和生活领域新的变革相融合,激发出越来越多的新的管理模式、营销模式和生活模式,从而催生了管理创新的要求。 大数据时代的...
大数据简介模板,随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于...
大数据和云计算是当前社会热点话题,秉承“按需服务”理念的云计算高速发展,“数据即资源”的大数据时代已经来临。如何更好地管理和利用大数据已经成为普遍关注的话题。 大数据是指无法在一定时间内用常规计算机...
这一现象被称为大数据(Big Data),它改变了舆论环境,尤其是网络舆情的产生、发展和变化。网络舆情指的是在特定社会空间内,公众对公共问题和社会管理者的态度、信念和价值观,通过网络平台得以表达。大数据的特点...
2008年,《Nature》杂志专刊“Big Data”揭示了大数据对数据分析的挑战。2011年,《Science》的“Dealing with data”专刊探讨了数据洪流的影响。同年,麦肯锡全球研究院发布的报告强调了大数据在创新、竞争和生产力...
随着大数据时代的来临,人们越来越多地利用海量数据中所蕴含的信息来解决各种问题。由于数据量的巨大,信息处理会遇到很多困难,比如数据的存储、查询、信息的提取等等。本文研究了数据处理中的一个重要问题——压缩...
大数据时代的来临,为各行各业带来了巨大的机遇,同时也带来了诸多挑战。首先,数据量的爆炸性增长使得传统的数据处理方式面临严峻考验。据IDC预测,全球数据使用量到2020年将增长44倍,达到35.2ZB。这一增长主要...
2、随着云时代的来临,大数据(Big data)吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,大数据分析常和云计算联系到一起,用于挖掘各种各样非常有价值的信息。...
大数据时代的来临,标志着我们已经步入了一个全新的信息时代。2011年,全球互联网数据存储量已超过100亿TB,并以超过59%的年增长率持续增长,这引发了大数据领域的热潮。 大数据的核心特点可以用“4V”来概括:...
#### 1.1 快速多样的数据环境推动IoE时代来临 随着移动设备数量的增长以及互联网用户的增加,数据流量呈现出爆炸性的增长态势。从1995年的PC时代到2012年的IoE(万物互联)时代,数据流量的增长速度远远超过了人们...
大数据的国内外研究现状及发展动态分析 大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型...2008年9月《科学》 (Science)杂志发表了一篇文章"BigData: Science in the Petabyte Era"。"大数据"这
随着互联网的迅速发展,大数据时代的来临,舆情分析已经成为企业和组织必须关注的重要领域。舆情分析系统旨在实时捕获、处理和分析海量信息,以便及时响应公众情绪,做出明智的决策。本文将深入探讨基于大数据的舆情...
大数据(Big Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。简单来说,就是用现有一般技术难以管理的数据。大数据的概念是相对传统数据的概念的扩展,后者更多关注的...
随着大数据时代的来临,高维数据分析和流形学习方法将成为未来研究和应用的重要方向。本文件通过介绍流形学习的主要方法,帮助我们更好地理解和掌握如何在大数据环境下应用降维模型。通过降维技术,不仅能够有效处理...
随着大数据时代的来临,算法在各个领域的应用日益广泛,特别是在物流行业中,配送路线优化已成为企业追求效率与利润的重要手段。遗传算法(Genetic Algorithm,GA)作为一种基于生物进化法则的随机搜索方法,因其在...