`
touchinsert
  • 浏览: 1356561 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

微软宣布全面拥抱Hadoop

 
阅读更多

继SQL Server后,微软终于全面加入了Hadoop阵营!

在10月12日的西雅图举行的SQL PASS 2011峰会上,微软宣布将于从雅虎分拆出来的Hortonworks合作开发,在Apache Hadoop上实现搭建Windows Server以及Windows Azure平台。Hortonworks作为微软的战略合作伙伴将会借助自己在此领域的专长帮助最大化将Hadoop集成到微软的产品之中。

微软表示预计在今年年底可推出基于Hadoop的Windows Azure预览版,而基于Hadoop的Windows Server将在在2012年推出。基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。同时微软官方还证实了SQL Server “Denali”将被正式命名为SQL Server 2012。

微软商业平台事业部高级副总裁Ted Kummert在一份声明中表示此举将帮助微软的客户更好的管理自己的大数据。越来越多的公司正在寻找收集和分析非结构化数据以帮助自身洞察业务的方法。但迄今为止,由于传统关系数据库主要是为处理结构化数据而设计的,其自身固有的特性导致可扩展性不佳。而Hadoop作为一个开源框架对大数据的支持正日益吸引IT主管的目光,Hadoop非常适合处理非结构化数据,如电子邮件内的内容、博客、点击带来的流数据、音频及视频等数据。

如雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop来存储和分析PB级别的非结构化数据。其他企业的数据仓库技术尚不具备处理这些任务的能力。Gartner分析师Merv Adrian表示这样看来微软与Hortonworks的联盟就不足为奇了。同时他认为Cloudera是当今Hadoop的领导者。

当然其他巨头也纷纷有所行动。一周前甲骨文也推出了基于Hadoop的大数据设备以及甲骨文自己的NoSQL数据库和基于开源语言R的分布式数据统计分析系统。就在几天前IBM宣布将收购私营的系统软件公司Platform Computing。此举可帮助IBM将更好地为客户提供服务,帮助它们以更适当的方式管理并分析大规模数据,降低成本和系统复杂度。

此刻微软自然不会无动于衷,其与Hortonworks的合作旨在努力简化下载、安装和配置等几个Hadoop的相关技术。包括HDFS、Hive、Pig。这将有利于企业通过Hadoop拓宽自身的业务。微软将编写新的ODBC驱动程序并扩展自己现有的查询系统到Hive。这样一来用户将能够直接从Excel、PowerView执行Hadoop查询。微软已经宣布的为Excel编写的BI插件被称之为PowerPivot。同时微软还将加大对JavaScript语言的投入,微软将使用JavaScript实现高性能的Map/Reduce。微软承诺将紧密与Hadoop社区合作并积极为Apache软件基金会的项目作出自身的贡献。

SQL Server产品管理总经理Doug Leland表示微软计划是使Hadoop的数据通过部署在基于云的Windows Azure获取。并使其能够与企业的商业智能工具一起分析数据。微软还将Active Directory的安全性和数据访问控制整合进Hadoop,以提供最大的可管理性,真正使我们的平台具有良好的竞争力。

微软NoSQL数据库Trinity架构图

Hortonworks的CEO Eric Baldeschwieler表示,当今生成的新数据中,超过80%都是非结构化数据。微软与Hortonworks的合作可使Hadoop成为用于存储和处理数据的引人注目的平台。其实早在8月微软就增加了SQL Server在大规模数据处理和并行数据仓库平台对开源Hadoop框架的支持。同时连接器的最终版本已提供下载。然后远不止这些,微软早在今年3月份就发布了其图数据库系统Trinity。Trinity是一款NoSQL数据库,同时是一个基于内存的数据存储与运算系统。Trinity包括一个图结构数据库(提供实时查询与后台批量计算任务,类似于Map/Reduce,同时支持ACI的事物并提供C#的客户端API)和一个并行计算系统。目前在微软为Probase和AEther这两个产品服务。

最后Red Monk分析师Stephen O'Grady表示Windows和Hadoop的结合将是非常具有吸引力的,这将吸引大量的Windows用户。显然这是非常重要的,微软具有在此领域竞争的实力。微软明显认为优化和调整是确保其成功的重要因素。

分享到:
评论

相关推荐

    Hadoop用微软运行库

    标题提到的“Hadoop用微软运行库”就是为了解决这类问题而提供的解决方案。 描述中指出,这个微软运行库主要是为了解决winutils.exe报错时缺失dll文件的问题。winutils.exe是Hadoop在Windows上执行某些操作,如启动...

    Hadoop-2.8.5全面资料

    ### Hadoop-2.8.5全面资料知识点详解 #### 一、Hadoop概述与版本说明 Hadoop是一个能够对大量数据进行分布式处理的软件框架,由Apache基金会开发。它能够在集群环境中提供高可靠性、高效性和可扩展性的数据处理...

    2.资料-史上最全面的hadoop.rar

    资料-史上最全面的hadoop.rar"的压缩包文件很可能包含了一系列关于Hadoop的学习资料,如day09、day10和day08的资料,这些都是学习过程中按天划分的课程内容。 首先,Hadoop由Apache基金会开发,它基于Google的...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    hadoop组件程序包.zip

    总结,"hadoop组件程序包.zip"是一个为Hadoop初学者量身定制的学习资源,通过深入学习和实践,初学者可以全面掌握Hadoop的核心组件及其工作原理,为未来在大数据领域的探索和发展打下坚实基础。

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop2.7.7对应的hadoop.dll,winutils.exe

    在Hadoop生态系统中,Hadoop 2.7.7是一个重要的版本,它为大数据处理提供了稳定性和性能优化。Hadoop通常被用作Linux环境下的分布式计算框架,但有时开发者或学习者在Windows环境下也需要进行Hadoop相关的开发和测试...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    hadoop2.6 hadoop.dll+winutils.exe

    标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键组件:`hadoop.dll` 和 `winutils.exe`,这两个组件对于在Windows环境中配置和运行Hadoop至关重要。Hadoop原本是为Linux环境设计的,...

    win环境 hadoop 3.1.0安装包

    在Windows环境下安装Hadoop 3.1.0是学习和使用大数据处理技术的重要步骤。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据集。在这个过程中,我们将详细讲解Hadoop 3.1.0在Windows上的安装过程以及相关...

    Hadoop技术详解.Hadoop Operation

    《Hadoop技术详解》这本书是关于Hadoop操作的详尽指南,它涵盖了Hadoop生态系统中的核心组件、工作原理以及实际操作技巧。...通过阅读此书,你可以全面提升自己在大数据处理和Hadoop运维方面的能力。

    hadoop.dll & winutils.exe For hadoop-2.6.0

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说。本文将详细介绍这两个文件以及它们在Hadoop 2.6.0版本中的作用。 `hadoop.dll`是Hadoop在Windows环境下运行所必需的一...

    Linux上Hadoop安装包hadoop-2.7.4.tar.gz

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是解决大数据处理的问题。Hadoop 2.7.4是Hadoop发展过程中的一个重要版本,它提供了许多增强特性和稳定性改进,使得大规模数据处理更加高效和...

Global site tag (gtag.js) - Google Analytics