`

我的理解2 hadoop不会替换传统数据库

阅读更多
主要功能:分析广告,用户打分,分析用户行为,统计日志,数据挖掘


facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!


Facebook使用的数据仓库都是在Oracle系统上实现的。在我们遇到可扩展性和性能方面的问题之后,开始调查是否有开源技术能够应用到我们的环境中。
分析广告,用户打分,分析用户行为

Hadoop是数据仓库的补充,不是数据仓库的替代品。HDFS是文件系统,而不是数据库管理系统。
它分析的是
能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。

  数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

对于Hive/Hadoop的使用并不是意味着将会完全放弃原来传统的数据库(Oracle/MySQL),而且把Hadoop/Hive看做是数据库仓库的和应用操作层的交集






图: Facebook的数据仓库架构

  • 大小: 45.9 KB
分享到:
评论

相关推荐

    基于Hadoop的研究及性能分析.pdf

    总的来说,这篇论文深入研究了Hadoop在大数据环境下的应用及其性能优化,对于理解Hadoop的核心机制、推测执行策略以及MapReduce中的特定算法有重要价值。通过对Hadoop的深入研究,可以更好地应对大数据带来的挑战,...

    基于hadoop和hbase的分布式索引集群研究.pdf

    通过对Hadoop和HBase的理解和运用,可以构建一个高效率的分布式索引集群,用以支持大数据环境下的搜索引擎需求。这种集群利用分布式计算和存储的优势,通过高效的分布式倒排索引算法处理索引任务,并将索引表存储在...

    基于Hadoop的研究及性能分析.docx

    【Hadoop概述】 Hadoop是大数据处理领域的一个关键框架,由...通过对Hadoop的性能分析,我们可以更好地理解其在大数据处理中的优势和潜在改进点,进一步推动大数据技术的发展,为企业和个人提供更强大的数据处理能力。

    数据库服务产品化之路.pptx

    他们的主要任务包括去IOE(即替换IBM的小型机、Oracle数据库和EMC存储)、应对双11和支付宝春节红包等高并发场景,以及推动自研数据库OceanBase的云服务化。 随着技术的发展,数据库服务经历了从双机热备到同城容灾...

    浅谈七种常见的Hadoop和Spark项目案例

    总结来说,Hadoop和Spark在数据整合、专业分析、服务化、流处理、复杂事件处理、ETL和替换传统分析工具等多个层面发挥着重要作用。随着技术的不断演进,这些应用场景也将持续发展,为企业带来更多的价值。理解这些...

    nutch分布式搜索索引热替换程序

    2. **增量索引**:Nutch支持增量索引,即只对新抓取或已更改的网页进行索引,而不是重新索引整个数据库。这降低了索引更新的资源需求,并减少了对现有服务的影响。 3. **双写策略**:在热替换过程中,新索引将被...

    大数据技术在传统企业信息化的应用.pdf

    2. 系统架构升级:采用大数据技术,如Hadoop和NoSQL,替换传统关系数据库,提高系统处理能力和扩展性。 3. 实时数据分析:利用流式计算和实时分析工具,实现快速响应和决策支持。 4. 精细化管理:通过大数据分析,...

    大数据课程体系.pdf

    HBase是一个分布式数据库,它与传统的RDBMS(关系型数据库管理系统)有很大的不同。课程会对比HBase和RDBMS的特点,并介绍HBase的系统架构、MapReduce在HBase上的应用,以及HBase的基本操作和调优策略。Hive则是...

    从SQLServer导入HBase的sqoop jar包

    在大数据处理领域,数据迁移是常见的任务之一,特别是在传统关系型数据库(如SQL ...了解并掌握这些操作对于实现传统数据库与分布式存储之间的数据流动至关重要,这对于数据迁移、分析和大数据应用的开发具有重要价值。

    大数据课程体系.docx

    - **HBase简介与RDBMS对比**:对比HBase与传统关系型数据库的特点差异。 - **HBase系统架构**:剖析HBase的架构设计,包括RegionServer、HMaster、ZooKeeper等组件的作用。 - **HBase上的MapReduce**:介绍如何在...

    大数据课程体系

    - **Hbase**:学习HBase的基本概念、系统架构、与传统关系型数据库(RDBMS)的对比。 - **HBase上的MapReduce**:利用MapReduce在HBase上执行数据分析任务。 - **Hbase核心术语介绍**:掌握HBase中关键术语的意义。 - ...

    Hive用户指南(Hive_user_guide)_中文版

    - **扩展性**:Hive易于在Hadoop集群上进行水平扩展,而传统数据库的扩展性受限于硬件性能。 **1.4 Hive元数据库** - **1.4.1 Derby**:Derby是一个开源的嵌入式数据库,它可以作为Hive的元数据存储选项之一。...

    jdbc 通过impala 连接hive库

    对于Hive和Impala这样的大数据处理系统,它们都提供了JDBC驱动,使得开发者可以像操作传统关系型数据库一样进行操作。 在Impala中,ImpalaJDBC4是其提供的JDBC驱动,用于Java应用程序与Impala进行通信。要将...

    hbase的安装与简单操作.rar

    HBase的数据模型基于列族,不同于传统的关系型数据库,它将数据按照行键和列族进行组织,这使得数据的存储和查询更加高效。 接下来,我们来一步步安装HBase。首先,你需要一个运行Hadoop的环境,因为HBase依赖于...

    HCIA-bigdata题库更新时间-20200101.pdf

    题库中提到,如果要给队列queueA设置容量为30,需要配置的参数是yarn.scheduler.capacity.root.queuename.capacity,其中name应替换为具体的队列名,如queueA。这表明了YARN支持的队列容量配置机制,这是在构建和...

    hive操作指南

    - **查询性能**:由于Hive基于MapReduce运行,其查询响应时间通常比传统数据库慢,但适合处理海量数据。 - **事务支持**:传统关系数据库通常支持ACID特性,而Hive早期版本仅支持有限的事务处理能力。 **1.4 Hive元...

    行业分类-设备装置-具有存储器系统体系结构的数据系统和数据读取方法.zip

    理解缓存的工作原理,如替换策略(LRU、LFU、随机替换等)和写策略(写直达、写回、写穿等),有助于优化系统性能。 6. 内存管理:操作系统如何分配、回收和保护内存资源也是关键。虚拟内存技术使得有限的物理内存...

    Hive数据仓库全流程开发

    - Hive不支持传统的`UPDATE`语句,但可以通过替换数据文件来实现类似的功能。 - **数据删除**: - Hive也不支持`DELETE`语句,但可以使用`ALTER TABLE DROP PARTITION`来删除特定的分区数据。 #### 四、日常运维...

Global site tag (gtag.js) - Google Analytics