Spark
Spark streaming和storm的区别是(两者都是分布式流处理框架)http://www.jdon.com/46591 :
1.Spark支持保持状态
2.Spark有数据平滑窗口(sliding window),而后者需要自己去维护这个窗口
3.Spark是需要到一个duration才开始处理数据,storm是实时处理数据,有数据就处理。Storm只有秒内的延迟
4. 在Storm中,每个单独的记录当它通过系统时必须被跟踪,所以Storm能够至少保证每个记录将被处理一次,但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。另一方面,Spark Streaming只需要在批级别进行跟踪处理,因此可以有效地保证每个mini-batch将完全被处理一次,即便一个节点发生故障。简而言之,如果你需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果你需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)时
5. Spark Streaming一个好的特性是其运行在Spark上. 这样你能够你编写批处理的同样代码,这就不需要编写单独的代码来处理实时流数据和历史数据
Storm
storm框架 http://storm.incubator.apache.org/documentation/Concepts.html
storm保证消息不丢
Storm分布式实时流计算框架相关技术总结
http://www.cr173.com/html/18637_1.html
Storm的
http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html
HBase
Hadoop是一个能够对大量数据进行分布式处理的软件框架 http://baike.baidu.com/view/908354.htm?fr=aladdin
Hadoop的优缺点介绍:
(一) 优点:
(一)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;
(二)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(三)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(四)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
(二) 缺点:
(一)不适合低延迟数据访问。
(二)无法高效存储大量小文件。
(三)不支持多用户写入及任意修改文件(支持删除文件)
·Scribe
http://www.cnblogs.com/brucewoo/archive/2011/12/13/2285482.html
实时分布式日志收集系统的比较 http://www.kankanews.com/ICkengine/archives/89351.shtml
Scribe示例 http://blog.csdn.net/amuseme_lu/article/details/6328013
·Hive
·Pig
·Zookeeper
·Flume
相关推荐
大数据面试复习---Java基础---集合类、多线程、JVM 大数据面试复习----常问问题分析 大数据面试复习----画重点----思维导图 大数据面试复习----简历编写 大数据面试复习----练习的面试题+笔试题 大数据面试复习----...
【大数据开发技术】是当前信息技术领域的重要组成部分,主要研究如何处理和分析大规模数据。南开大学的这门课程涵盖了大数据处理的关键技术,如Spark、Hadoop等...学习这些内容对于理解并实践大数据解决方案至关重要。
01大数据面试复习----Java基础---集合类、多线程、JVM 02大数据面试复习画重点---常问问题分析 03大数据面试复习----画重点----精心制作热门技术思维导图 04大数据面试复习----画重点----56家+真实互联网大公司面试...
01大数据面试复习----Java基础---集合类、多线程、JVM 02大数据面试复习----画重点----常问问题分析 03大数据面试复习----画重点----精心制作热门技术思维导图 04大数据面试复习----画重点----56家+真实互联网大公司...
以上是针对“06-大数据技术之面试题复习1.6带答案.pdf”中的主要内容进行的详细知识点总结。这些知识点涵盖了Linux高级命令、HDFS的基本操作及优化策略、以及MapReduce中的Shuffle过程及其优化方法等内容,对于准备...
在准备大数据面试的过程中,Java基础是必不可少的一部分,尤其聚焦于集合类、多线程和JVM这三大核心领域。下面将分别对这三个方面进行深入探讨。 **一、Java集合类** Java集合框架是处理对象组的重要工具,它包括...
在本项目中,我们关注的是一个与Java编程和大数据处理相关的学习资料,特别是"java代码-大数据1班 25曾骞 (对应的十进制)"。这个标题暗示这是一个Java编程作业或练习,出自大数据1班,可能是由学生25号曾骞完成,...
总结上述内容,我们可以看到这些Java编程示例涵盖了基本的输入输出、条件判断(if-else和switch-case)、循环以及简单的数据处理。这些是Java编程的基础,也是大数据分析的起点。在大数据领域,Java提供了Hadoop和...
在本资源中,我们关注的是一个Java编程实例,它实现了一个经典的九九乘法表,这是初学者在学习编程时...同时,这也是一种复习和巩固数学基础知识的好方法。通过这样的实践,开发者可以逐渐提高编程技能和逻辑思维能力。
在大数据面试中,Java技术是不可或缺的一部分,它涉及到虚拟机、面向对象、多线程、集合框架、反射、内存管理等多个方面。以下是一些相关知识点的详细解释: 1. **HashMap底层原理**:HashMap是基于哈希表实现的,...
Java编程语言是当今软件开发领域中的重要工具,尤其在企业级应用、云计算、大数据和物联网等领域有着广泛的应用。"Java-study 复习java.zip"这个压缩包文件显然是为学习和复习Java编程所准备的资源集合。让我们深入...
它包含了45套涵盖多个领域的面试题,旨在帮助求职者全面复习和深入理解Java开发中的关键知识点。 在并发领域,"并发面试专题.pdf"可能会包含线程安全、锁机制、并发工具类如Semaphore、CountDownLatch和...
总体来说,这份300页的面试指南为Java和大数据工程师提供了全面的知识梳理,不仅涵盖了基础理论,还可能包含实际案例和问题解答,有助于面试者系统性地复习和准备面试,提升通过率。无论是初学者还是经验丰富的专业...
在“达内Java大数据 Day01练习题及答案”这个学习资源中,主要涵盖了Java编程语言的基础知识,这是学习Java大数据的重要...通过这些练习,学习者可以系统地复习和巩固Java的基础知识,为后续的Java大数据学习做好准备。
RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛...
这份资料集合包含了"java 必会108题"、"大数据面试文档"、"Java面试文档"以及"Java公司面试真题",旨在帮助求职者全面复习并提升在这两个领域的专业能力。 一、Java必知必会108题 这部分内容可能涵盖了Java基础语法...
在描述中,我们看到与标题相同的信息,再次强调了内容的焦点是Java编程语言、大数据技术以及数据结构。Java是一种广泛使用的面向对象的编程语言,适用于各种应用开发,包括桌面应用、服务器端应用、移动应用等。...
通过深入学习以上内容,你可以建立起坚实的Java基础,从而能够进一步探索更高级的Java技术和框架,例如Spring Boot、Spring Cloud、MyBatis等,或进入大数据、云计算、分布式系统等领域。不断学习和实践,将使你在...
以上内容涵盖了大数据的基本概念、技术、应用、框架和相关技术等重要知识点,为读者提供了全面的大数据复习资料。在学习和应用这些知识点的过程中,理解每项技术背后的设计思想和应用场景,能够帮助我们更好地掌握...
【大数据基础复习】 在大数据处理领域,理解和掌握高效的数据处理技术是至关重要的。这里我们将重点关注高并发包的使用以及Hadoop的主要原理与流程。 一、并发包与IO模型 1. NIO(Non-blocking Input/Output):...