- 浏览: 1465355 次
- 性别:
- 来自: 河北邯郸
最新评论
-
天台没有爱情:
基于Flink流处理的动态实时电商实时分析系统网盘地址:htt ...
Flink 应用 -
zzz2726:
147-150行:执行出错了引用public User que ...
Spring中jdbcTemplate的用法实例(一) -
18942512863:
Catch you
搞爆storm集群的bug追踪过程 -
商人shang:
u010719892 写道老乡 ,邱县d老相好
Intellij IDEA如何使用Maven Tomcat Plugin运行web项目 -
u010719892:
老乡 ,邱县d
Intellij IDEA如何使用Maven Tomcat Plugin运行web项目
文章列表
1、做事要有排期:任何一个工作在开始做的时候都要预估一个排期,自己要保证在排期内完成
2、codereview:代码要互相review,任何改动都要提交review,如果其他人不在,自己也要把自己提交的cr地址发出来并且在注释中贴出来。
3、上线以及线上问题处理:(1)上线要有checklist,必须检查checklist(2)尽量避免在周五下午和平时的晚上上线 (3)上线时,尽量单个feature上线,防止产生问题,难以排查 (4)自己要知道负责的哪些模块是重要的,在出现问题时及时处理,自己不能处理也要委托人尽快处理
4、团队合作:(1)与其他人共同开发的项目,先定接口,做到并行开发 ...
Storm有几种不同的守护进程。Nimbus调度worker,Supervisor运行和杀死worker,log viewer 提供对于日志的访问方式,UI展示集群的状态。
一、问:如果一个Worker死掉了,那么会发生什么?
答:如果一个worker死掉了,那么supervisor会重启这个worker。如果这个worker在启动的时候持续失败,那么它将不能与Nimbus正常进行心跳通信,Nimbus将会重新调度这个worker。
二、问:如果一个Node死掉了,会发生什么?
答:分配到那台机器的任务将会超时,并且Nimbus会重新分配这些任务到其他的机器上面。
...
这个文档简要的介绍下Spark是怎么样在集群模式中运行的,以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。
Components
Spark应用程序作为独立的进程集运行,它们是由 main程序(称为driver程序)中的SparkContext 对象进行协调的。
特别地,在集群上运行是,SparkContext可以与几种不同的cluster managers进行连接通信,比如Spark自己的standalone 集群管理器或者Mesos或者Yarn,这些集群管理器为应用程序分配资源。一旦连接 ...
Map Reduce & YARN
简介
Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。
MapReduce 是 Google 推广的一个简单的编程模型,它对以高度并行和可扩展的方式处理大数据集很有用。MapReduce 的灵感来源于函数式编程,用户可将他们的计算表达为 ma ...
公司A:
1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?
2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?
3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。
4.shuffle 是什么? 怎么调优?
5.项目用什么语言写? Scala? Scala的特点? 和Java的区别?
6.理论基础怎么样,比如数据结构,里面的快速排序,或者,树? 讲一讲你了解的树的知识?
7.数学怎么样呢?
8.讲一下数据库,SQl ,左外连接, 原理,实现?
9.还了解过数据的什么知识? 数据 ...
一、查询优化
查询条件的与或关系、查询顺序
filter代替query
使用_cache,强制缓存查询条件
系统内存和JVM内存(最大32G)提升
CPU和SSD,更具具体业务场景
keyword代替long或者integer
北京2015年10月26日电 /美通社/ -- 面对越来越多、越来越分散的线上和线下渠道、越来越难理解的在线新生代、层出不穷的新名词,企业各种焦虑但也不知道从何入手。因此,消费者画像、精准营销、大数据、O2O、SCRM(Social CRM)开始成为热门话题,大家都想抓住最“互联网”的营销方法。实际上这些热门话题是同一个东西,即:数据管理平台,也就是DMP。
DMP是大脑
DMP,全名为“Data-Management Platform”,即“数据管理平台”,是利用大数据技术从海量杂乱的数据中抽取出有价值信息的重要基础设施。
D
此文主要接 storm worker异常重启原因排查汇总 这篇文章继续描述。上文中的第三点大概描述了一下造成重启的原因,这次又有一次详细的排查过程和思路供参考。
一、背景
今天,另一个同事反应,我们的一个任务在早 ...
消息队列(Message Queue)允许应用程序通过相互之间发送消息来通信。消息队列在目标队列繁忙的时候,提供一个临时的消息存储。
下面我将从以下几个方面来介绍消息队列。
1、什么是消息队列?
2、使用消息队列可以带来什么好处?
3、消息队列的基本分类
一、什么是消息队列?
队列是一个线性的先进先出的等待处理的事物的集合。消息队列是在两个应用之间发送的消息的队列。它包含一系列等待被处理的工作对象。
消息是指在发送者和接受者之间传递的数,它本质上是有着特定格式的字节数组。消息可能是告诉一个系统开始处理或者完成处理某个任务的信息,或者一个平常的信息。
最基本 ...
此时此刻,正在等到6.18的到来,趁着没事写个博客,,,
storm集群在worker down掉以后会自动启动新的woker,但是有很多情况下是感觉不应该重启的时候,woker重启了,因此就走上了排查woker重启的道路上~
一、排查思路
经 ...
下图是近来学习和用到的大数据方面的技术,现在做一个总结。并且在总结的过程中,也进行更加进一步的学习和了解。
以上为个人所接触到的大数据相关的一些技术,后续的章节将围绕这些技术展开,具体的介绍方式是从应用和原理两个方面进行。
1、大数据实时流架构
(1) 消息队列
消息队列是在不同的应用间做数据传递的,现在常用的主要包括Kafka,redis 队列,RabbitMQ,ZeroMQ,ActiveMQ 等。
(2)流式处理框架
流式处理框架主要是提供了一实时处理消息的计算框架,具体的实现是由业务方自己来写代码完成的。常见的有Storm、Spark ...
新装windows8.1 发现WMI Provider Host(wmiprvse.exe)占用CPU非常高,有事会瞬间飙升到100%造成机器卡死几秒。寻找了很久找到了以下解决方案:1、首先要排除病毒或木马的可能。2、在运行里执行 services.msc启动系统服务。3、找到windows ...
遇见的 Unable to locate xxx NamespaceHandler for XML schema namespace 相关问题以后,目前总结主要有两种情况:
1. 非spring的xml Schema报错
这时候根据遇见的两次错误,基本上可以定位为缺少pom的依赖。因为有相应的jar包依赖,就会自动下载相关的xsd文件并且打包到jar文件中。
2. 遇见 spring的xml Schema报错
如果已经配置了spring的相关pom依赖,则基本上是由于在进行打包配置时的maven插件问题造成的。放弃assembly的打包方式,而换用shade方 ...
合理的业务逻辑设计可以避免80%产生的问题,剩下的20%,则需要一些额外的工作和辅助手动进行处理。
现总结的程序设计的一些原则如下:
程序内部设计原则
对于非常严重认为不能容忍的异常,要中断程序;
对于可以容忍的异常,要进行异常捕获和 error log 的提示。如对redis进行scan,某个key有问题,不应该影响其他的数据的处理;
程序内部的各个模块的调用,要全面判断返回值,并且进行相应的处理。如shell脚本上传hdfs,若上传失败,则不能够产生SUCCESS标识;
多Job间的处理原则
下游要根据上游的约定,相信上游约定的返回的状态码,若最终发现结果和状态码不一致 ...