`

Java内容的复习-大数据

 
阅读更多

Spark

Spark streamingstorm的区别是(两者都是分布式流处理框架)http://www.jdon.com/46591 

1.Spark支持保持状态

2.Spark有数据平滑窗口(sliding window),而后者需要自己去维护这个窗口

3.Spark是需要到一个duration才开始处理数据,storm是实时处理数据,有数据就处理。Storm只有秒内的延迟

4. Storm,每个单独的记录当它通过系统时必须被跟踪,所以Storm能够至少保证每个记录将被处理一次,但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。另一方面,Spark Streaming只需要在批级别进行跟踪处理,因此可以有效地保证每个mini-batch将完全被处理一次,即便一个节点发生故障。简而言之,如果你需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果你需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)

5.  Spark Streaming一个好的特性是其运行在Spark这样你能够你编写批处理的同样代码,这就不需要编写单独的代码来处理实时流数据和历史数据

 

Storm

storm框架 http://storm.incubator.apache.org/documentation/Concepts.html

storm保证消息不丢

http://xumingming.sinaapp.com/127/twitter-storm%E5%A6%82%E4%BD%95%E4%BF%9D%E8%AF%81%E6%B6%88%E6%81%AF%E4%B8%8D%E4%B8%A2%E5%A4%B1/

 

 

Storm分布式实时流计算框架相关技术总结

http://www.cr173.com/html/18637_1.html

Storm

http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html

 

 

HBase

Hadoop是一个能够对大量数据进行分布式处理的软件框架 http://baike.baidu.com/view/908354.htm?fr=aladdin

Hadoop的优缺点介绍:

(一) 优点:

(一)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;

(二)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

(三)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

(四)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

   低成本。与一体机、商用数据仓库以及QlikViewYonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

(二) 缺点:

(一)不适合低延迟数据访问。

(二)无法高效存储大量小文件。

(三)不支持多用户写入及任意修改文件(支持删除文件)

 

·Scribe

http://www.cnblogs.com/brucewoo/archive/2011/12/13/2285482.html

实时分布式日志收集系统的比较 http://www.kankanews.com/ICkengine/archives/89351.shtml

Scribe示例 http://blog.csdn.net/amuseme_lu/article/details/6328013

·Hive

·Pig

·Zookeeper

·Flume

分享到:
评论

相关推荐

    大数据面试复习总结

    大数据面试复习---Java基础---集合类、多线程、JVM 大数据面试复习----常问问题分析 大数据面试复习----画重点----思维导图 大数据面试复习----简历编写 大数据面试复习----练习的面试题+笔试题 大数据面试复习----...

    南开大学复习资料-大数据开发技术(二).docx

    【大数据开发技术】是当前信息技术领域的重要组成部分,主要研究如何处理和分析大规模数据。南开大学的这门课程涵盖了大数据处理的关键技术,如Spark、Hadoop等...学习这些内容对于理解并实践大数据解决方案至关重要。

    强烈推荐-2024大数据面试技巧及简历项目总结资料合集(涵盖所有知识面,有这份就够了).zip

    01大数据面试复习----Java基础---集合类、多线程、JVM 02大数据面试复习画重点---常问问题分析 03大数据面试复习----画重点----精心制作热门技术思维导图 04大数据面试复习----画重点----56家+真实互联网大公司面试...

    软件大数据面试笔试复习资料面试技巧HR面试常问的问题总结面试笔试题整理资料合集.zip

    01大数据面试复习----Java基础---集合类、多线程、JVM 02大数据面试复习----画重点----常问问题分析 03大数据面试复习----画重点----精心制作热门技术思维导图 04大数据面试复习----画重点----56家+真实互联网大公司...

    06-大数据技术之面试题复习1.6带答案.pdf

    以上是针对“06-大数据技术之面试题复习1.6带答案.pdf”中的主要内容进行的详细知识点总结。这些知识点涵盖了Linux高级命令、HDFS的基本操作及优化策略、以及MapReduce中的Shuffle过程及其优化方法等内容,对于准备...

    01大数据面试复习----Java基础---集合类、多线程、JVM.zip

    在准备大数据面试的过程中,Java基础是必不可少的一部分,尤其聚焦于集合类、多线程和JVM这三大核心领域。下面将分别对这三个方面进行深入探讨。 **一、Java集合类** Java集合框架是处理对象组的重要工具,它包括...

    java代码-大数据1班 25曾骞 (对应的十进制)

    在本项目中,我们关注的是一个与Java编程和大数据处理相关的学习资料,特别是"java代码-大数据1班 25曾骞 (对应的十进制)"。这个标题暗示这是一个Java编程作业或练习,出自大数据1班,可能是由学生25号曾骞完成,...

    java期末复习资料(大数据)

    总结上述内容,我们可以看到这些Java编程示例涵盖了基本的输入输出、条件判断(if-else和switch-case)、循环以及简单的数据处理。这些是Java编程的基础,也是大数据分析的起点。在大数据领域,Java提供了Hadoop和...

    java代码-大数据1 02曾昭港 九九乘法表

    在本资源中,我们关注的是一个Java编程实例,它实现了一个经典的九九乘法表,这是初学者在学习编程时...同时,这也是一种复习和巩固数学基础知识的好方法。通过这样的实践,开发者可以逐渐提高编程技能和逻辑思维能力。

    大数据面试复习----常问问题分析.docx

    在大数据面试中,Java技术是不可或缺的一部分,它涉及到虚拟机、面向对象、多线程、集合框架、反射、内存管理等多个方面。以下是一些相关知识点的详细解释: 1. **HashMap底层原理**:HashMap是基于哈希表实现的,...

    java-springboot-ssm-复习.rar

    不过,从标题“java-springboot-ssm-复习”和标签“spring boot spring boot java”可以推测该压缩包是与Java开发相关的复习材料,特别是涉及Spring Boot和SSM(Spring、SpringMVC和MyBatis)技术栈的内容。...

    Java-study 复习java.zip

    Java编程语言是当今软件开发领域中的重要工具,尤其在企业级应用、云计算、大数据和物联网等领域有着广泛的应用。"Java-study 复习java.zip"这个压缩包文件显然是为学习和复习Java编程所准备的资源集合。让我们深入...

    C++-java-mysql-公共基础知识押题卷.zip

    通过以上内容,我们可以了解到,这份压缩包文件集合了C++、Java与MySQL相关的公共基础知识考题,且覆盖了不同等级考试的多个领域,对考生进行全面的知识点复习和技能训练具有重要作用。对于准备计算机技术等级考试的...

    面试真题包含spring-java-集合-框架-并发-spring-运维-数据库等多领域45卷合集.rar

    它包含了45套涵盖多个领域的面试题,旨在帮助求职者全面复习和深入理解Java开发中的关键知识点。 在并发领域,"并发面试专题.pdf"可能会包含线程安全、锁机制、并发工具类如Semaphore、CountDownLatch和...

    Java开发者或者大数据开发者面试知识点整理_JavaOrBigData-Interview.zip

    为了帮助Java开发者或大数据开发者在面试中更好地准备,本压缩包整理了...这份清单对于有志于在Java或大数据领域发展的面试者来说,是一份全面而细致的复习材料,能够帮助他们在面试中展示出自己的专业能力和技术水平。

    300页Java和大数据面试.pdf

    总体来说,这份300页的面试指南为Java和大数据工程师提供了全面的知识梳理,不仅涵盖了基础理论,还可能包含实际案例和问题解答,有助于面试者系统性地复习和准备面试,提升通过率。无论是初学者还是经验丰富的专业...

    达内Java大数据 Day01练习题及答案

    在“达内Java大数据 Day01练习题及答案”这个学习资源中,主要涵盖了Java编程语言的基础知识,这是学习Java大数据的重要...通过这些练习,学习者可以系统地复习和巩固Java的基础知识,为后续的Java大数据学习做好准备。

    大数据+大数据+Java面试题宝典

    这份《大数据+大数据+Java面试题宝典》涵盖了从Hadoop技术到大数据综合知识,再到Java编程语言核心概念的全面内容。通过对这些知识点的掌握,求职者可以在面试中更好地展示自己的专业能力,增加获得理想职位的机会。

    竞赛资料源码-蓝桥杯java复习.zip

    RoboMaster、RoboCon、“西门子杯”中国智能制造挑战赛、中国大学生计算机设计大赛、世界技能大赛、中国高校计算机大赛-大数据挑战赛、团体程序设计天梯赛、移动应用创新赛、网络技术挑战赛、全国大学生信息安全竞赛...

    java基础、架构、大数据的面试八股.zip

    本压缩包《java基础、架构、大数据的面试八股》收录了大量关于Java以及大数据技术面试中常被问到的“八股文”式问题及其解答,旨在帮助开发者更好地准备面试,同时也是对相关知识点的系统复习。 首先,Java基础知识...

Global site tag (gtag.js) - Google Analytics