- 浏览: 494513 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (502)
- Java (70)
- Linux (10)
- 数据库 (38)
- 网络 (10)
- WEB (13)
- JSP (4)
- 互联网 (71)
- JavaScript (30)
- Spring MVC (19)
- HTML (13)
- CSS (3)
- AngularJS (18)
- Redis (5)
- Bootstrap CSS (1)
- ZooKeeper (4)
- kafka (6)
- 服务器缓存 (4)
- Storm (1)
- MongoDB (9)
- Spring boot (16)
- log4j (2)
- maven (3)
- nginx (5)
- Tomcat (2)
- Eclipse (4)
- Swagger (2)
- Netty (5)
- Dubbo (1)
- Docker (7)
- Hadoop (12)
- OAuth (1)
- webSocket (4)
- 服务器性能 (7)
- Session共享 (1)
- tieye修改 (1)
- 工作 (1)
- 有用的语录 (0)
- https (2)
- common (5)
- 产品开发管理 (1)
- CDN 工作原理 (1)
- APNS、GCM (1)
- 架构图 (3)
- 功能实现分析 (1)
- JMX (1)
- 服务器相关操作命令 (1)
- img02 (0)
- 服务器环境搭建 (9)
- goodMenuBook (1)
- CEInstantPot (0)
- 有用数据 (1)
- 百度地图WEB API (2)
- 正则表达式 (1)
- 样式例子 (2)
- staticRecipePressureCooker.zip (1)
- jCanvas (1)
- 网站攻击方法原理 (1)
- 架构设计 (3)
- 物联网相关 (3)
- 研发管理 (7)
- 技术需求点 (1)
- 计划 (1)
- spring cloud (11)
- 服务器开发的一些实用工具和方法 (1)
- 每天学到的技术点 (4)
- Guava (1)
- ERP 技术注意要点 (2)
- 微信小程序 (1)
- FineRepor (1)
- 收藏夹 (1)
- temp (5)
- 服务架构 (4)
- 任职资格方案 (0)
- osno_test (1)
- jquery相关 (3)
- mybatis (4)
- ueditor (1)
- VueJS (7)
- python (10)
- Spring EL (1)
- shiro (1)
- 前端开发原理与使用 (7)
- YARN (1)
- Spark (1)
- Hbase (2)
- Pig (2)
- 机器学习 (30)
- matplotlib (1)
- OpenCV (17)
- Hystrix (1)
- 公司 (1)
- miniui (4)
- 前端功能实现 (3)
- 前端插件 (1)
- 钉钉开发 (2)
- Jenkins (1)
- elasticSearch使用 (2)
- 技术规范 (4)
- 技术实现原理 (0)
最新评论
Hadoop 与 JStrom 的应用场景和区别
1.Hadoop是处理海量数据的离线分析工具,Storm是分布式的、实时数据流分析工具。一个重在离线分析,一个重在实时数据流分析。
2.Hadoop注重的是离线数据的强大分析功能,Storm强调的是实时数据流的分析。
3.Hadoop实时性不高(分钟级),但大量数据(TB级)处理能力强,Storm实时性高(ms级),但大量数据处理能力比Hadoop差点。
4.数据来源:Hadoop是HDFS上某个文件夹下的可能是成TB的数据,STORM是实时新增的某一笔数据
5.处理过程:HADOOP是分MAP阶段到REDUCE阶段,STORM是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可以是数据源(SPOUT)或处理逻辑(BOLT)
6.是否结束:HADOOP最后是要结束的,STORM是没有结束状态,到最后一步时,就停在那,直到有新数据进入时再从头开始
7.处理速度:HADOOP是以处理HDFS上大量数据为目的,速度慢,STORM是只要处理新增的某一笔数据即可可以做到很快。
8.适用场景:HADOOP是在要处理一批数据时用的,不讲究时效性,要处理就提交一个JOB,STORM是要处理某一新增数据时用的,要讲时效性
9.与MQ对比:HADOOP没有对比性,STORM可以看作是有N个步骤,每个步骤处理完就向下一个MQ发送消息,监听这个MQ的消费者继续处理
说一个典型的场景:
1.假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。
2.而JStrom流式计算则是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。
参考(应用场景和区别):https://www.zhihu.com/question/20098507
参考(区别)http://blog.csdn.net/educast/article/details/41723471
1.Hadoop是处理海量数据的离线分析工具,Storm是分布式的、实时数据流分析工具。一个重在离线分析,一个重在实时数据流分析。
2.Hadoop注重的是离线数据的强大分析功能,Storm强调的是实时数据流的分析。
3.Hadoop实时性不高(分钟级),但大量数据(TB级)处理能力强,Storm实时性高(ms级),但大量数据处理能力比Hadoop差点。
4.数据来源:Hadoop是HDFS上某个文件夹下的可能是成TB的数据,STORM是实时新增的某一笔数据
5.处理过程:HADOOP是分MAP阶段到REDUCE阶段,STORM是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可以是数据源(SPOUT)或处理逻辑(BOLT)
6.是否结束:HADOOP最后是要结束的,STORM是没有结束状态,到最后一步时,就停在那,直到有新数据进入时再从头开始
7.处理速度:HADOOP是以处理HDFS上大量数据为目的,速度慢,STORM是只要处理新增的某一笔数据即可可以做到很快。
8.适用场景:HADOOP是在要处理一批数据时用的,不讲究时效性,要处理就提交一个JOB,STORM是要处理某一新增数据时用的,要讲时效性
9.与MQ对比:HADOOP没有对比性,STORM可以看作是有N个步骤,每个步骤处理完就向下一个MQ发送消息,监听这个MQ的消费者继续处理
说一个典型的场景:
1.假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。
2.而JStrom流式计算则是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。
参考(应用场景和区别):https://www.zhihu.com/question/20098507
参考(区别)http://blog.csdn.net/educast/article/details/41723471
发表评论
-
大数据相关安装和测试
2019-08-05 22:32 330大数据相关安装和测试 -
hadoop MR运行原理
2018-08-25 11:36 824hadoop MR运行原理 http://s5.51cto. ... -
迭代计算原理
2018-08-21 17:48 1248迭代计算原理 把上一步的计算结果代入这一步的运算中去。。 ... -
hive 原理与安装
2018-08-12 17:39 449hive 原理与安装 hive 是把类似SQL的语 ... -
ssh原理和使用
2018-08-10 21:10 651SSH 远程登陆原理: 使用密码登录,每次都必须输入密码 ... -
hadoop 集群运行的原理与使用
2018-08-09 16:43 845hadoop 集群运行的原理与使用 就是在每台服务器上分别 ... -
hadoop安装
2018-08-08 21:30 340//----------------------------- ... -
spark基础知识
2018-07-25 16:28 238spark基础知识 Apache Spark是一个围绕速度、 ... -
Hadoop应用基础知识
2018-07-25 15:57 459hadoop (1)Hadoop是一个开源 ... -
Hadoop MapReduce框架详解
2016-11-25 14:19 465Hadoop MapReduce框架详解 ... -
HDFS的运行原理
2016-09-10 16:16 436HDFS的运行原理 简介 HDF ...
相关推荐
hadoop平台构建与应用
在IT行业中,Hadoop是一个广泛使用的开源框架,它主要用于处理和存储海量数据。这个"**Hadoop简单应用案例**"涵盖了Hadoop生态系统中的多个关键组件,包括MapReduce、HDFS、Zookeeper以及Hive,这些都是大数据处理的...
根据给定文件的内容部分,我们可以提炼出以下几个知识点: 1. 大数据业务处理基本流程与关键技术 ...在实际的Hadoop学习和应用中,这些知识点是非常重要的基础,有助于理解和操作Hadoop集群以及处理大数据问题。
《Hadoop应用开发与案例实战(慕课版)》是一门深入探讨大数据处理技术的课程,主要聚焦在Hadoop平台上进行应用开发的实践操作。这门课通过丰富的PPT课件,旨在帮助学习者理解Hadoop的核心概念,掌握其开发技巧,并...
《Hadoop大数据技术与应用》课程是一门专为数据科学和大数据方向的本科生设计的必修课,旨在让学生深入理解并掌握Hadoop平台及其主要组件的使用。这门课程包括理论教学和实践两大部分,旨在培养学生的工程师思维方式...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...
在配置和运行Hadoop的Java应用程序时,这个DLL文件是必不可少的,因为它提供了与Hadoop分布式文件系统(HDFS)以及其他Hadoop服务通信的接口。 其次,`winutils.exe`是Hadoop在Windows上的一个实用工具程序,它提供...
它可能包含了Spring配置文件、Hadoop服务接口和实现、以及如何在Spring应用中使用这些服务的示例代码。 总结来说,Hadoop与Spring的结合使得我们可以在分布式环境中利用Spring的强大管理功能和Hadoop的大数据处理...
本文将深入探讨Hadoop在雅虎的应用历程、关键技术点以及具体的业务场景。 #### 二、Hadoop发展历程及生态系统 **1. 发展历程** - **2004-2005年:**Hadoop最初作为Apache Lucene项目的一部分进行原型开发。 - **...
标题中的“hadoop.dll & winutils.exe For hadoop-3.0.0”是指在Hadoop 3.0.0版本中使用的两个关键组件:hadoop.dll和winutils.exe。这两个文件对于在Windows环境中配置和运行Hadoop生态系统至关重要。 Hadoop是一...
5. **Hadoop 的其他误解与应用** - **误解:Hadoop 是实时分析的解决方案** **正解:** Hadoop 原生设计并非为实时分析,尽管通过引入实时处理框架如Apache Spark,可以增强Hadoop在实时分析中的能力。 - **误解...
而Hadoop则适合于需要高度可靠性和复杂数据处理的场景,尤其是在大规模数据处理和分析的稳定性要求较高的应用中更为合适。对于不同的业务需求,开发者可以选择合适的工具,或者将两者结合使用,以达到最佳的数据处理...
以上只是"Hadoop高级应用三"可能涵盖的一部分内容,具体的教程可能还会根据实际场景和案例进行深入的讲解和实践,如大数据分析的实际项目、故障排查技巧、性能监控和日志分析等。通过学习这部分内容,开发者和数据...
#### 三、Hadoop应用案例 Hadoop因其强大的数据处理能力,在各行各业中都得到了广泛应用。以下是一些典型的应用案例: 1. **百度的日志分析和网页数据挖掘**:百度利用Hadoop进行日志分析,帮助改进搜索结果的质量...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...
1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 5.东软基于HADOOP的大数据应用建议
在大数据处理领域,Hadoop和Spark是两个至关重要的框架,它们各自扮演着不同的角色并有着互补的优势。Hadoop,作为Apache软件基金会的旗舰项目,以其分布式文件系统HDFS(Hadoop Distributed File System)和...