`
zhangym195
  • 浏览: 123982 次
  • 性别: Icon_minigender_1
  • 来自: 黑龙江
社区版块
存档分类
最新评论
文章列表
  Spark之所以非常出色是基于RDD构成了一体化、多元化计算核心,所以就需要在处理多范式的计算时不需要部署多个框架,只需要一个团队一个技术堆栈就可以了解决所有大数据的计算问题,相对来说在软件、硬件上团队的投入都会降低,产出确又会很高。     作为商业的本质属性来说:更低的成本,更高的产出永远都是对的,而且就目前来看当前Spark产能来说,虽然目前基于RDD上面有五大子框架,但其实Spark上面5%的产能都未发挥出来,未来将会有极大的提高空间。     有些人一直以为Spark都会有只能基于内存进行计算的错误想法,其实1.2版本之前确有内存一些问题,但之后其实DAG才是他的性能的核 ...
package com.dt.spark.topn; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import or ...
一:通过Spark-shell运行程序来观察TaskScheduler内幕 1,当我们启动Spark-shell本身的时候命令终端反馈回来的主要是ClientEndpoint和SparkDeploySchedulerBackend,这是因为此时还没有任何Job的触发,这是启动Application本身而已,所以主要就是实例化SparkContext并注册当前的应用程序给Master且从集群中获得ExecutorBackend计算资源;   2,DAGScheduler划分好Stage后会通过
     ETL,Extraction-Transformation-Loading的缩写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数据仓库的重要环节。 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。   在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了数据清洗、整合、转换、加载 ...
1.前提条件     下载JavaEE Eclipse ,自带Maven     安装好JDK1.8     下载并配置了Hadoop 2.6.x   2.创建Maven Project       选择 Maven-archetype-quickstart 选项
最近太忙了,实在没有时间详细校稿,应大家要求,现在在将全文转为pdf格式。 上传上来,但是内容仍有瑕疵,如有发现请回复邮件,谢谢各位     各位谅解!     校了下内容,再发上来一个版本!    
第24章 可插拨架构 jBPM功能特性分裂成模块。每个模块都有一个定义和执行(运行时)部分。中心模块是图模块,由ProcessDefinition和ProcessInstance组成。流程定义包含一个图和流程实例表示的一个图执行。jBPM所有其他的功能特性被分组成可选的模块。可选的模块能够扩展图模块的额外特性,如上下文(流程变量)、任务管理、定时器等等。   图 24-1 可插拨架构 在jBPM中的可插拨架构也是给jBPM引擎增加定制能力唯一的机制。定制流程定义信息能够通过向流程定义上增加一个ModuleDefinition实现来增加。当流程实例被创建时,它将为ProcessDefinition ...
第23章 工作流的TDD文件 23.1.工作流TDD介绍 既然开发面向流程的软件和开发其他的软件没有什么区别,我们相信流程定义应该是容易测试的。本章显示如何使用纯jUnit而没有任何扩展来单元测试你创作的流程定义。 开发周期应该尽可能的短。变化应使软件源代码立即可校验。更好的,不用任何中间的构建步骤。下面所给的例子将显示如何开发并测试jBPM流程而不需要中间的步骤。 大多数流程定义的单元测试是执行环境。每个环境在jUnit测试方法中被执行的并且将输入外部触发器(读:信号)进入流程执行然后在每个信号后检验是否流程是期待的状态。 让我们看一个这样的测试的例子。我们处理一个简化的使用下面的图形表示的拍 ...
第22章 安全 jBPM的安全属性还处于alpha阶段。本章归档了可插拨的认证和授权。那么框架的什么内容完成了,什么部分没有还完成呢。 22.1. 要做的事 在框架部分上,我们仍然需要在流程正在被执行时通过jbpm引擎定义一系列的被校验的权限。当前你能检查你自己的权限,但仍没有一个jbpm缺省权限的设置。 只完成了一个缺省的认证实现。但预想了其他的认证实现。对于授权,预想了有许多的授权实现,但他们还没有做出来。 如果没有认证和授权,框架提供插入你自己的认证和授权的机制。 22.2. 认证 认证让流程了解代表谁的代码正在运行。假如jBPM的这个信息在jBPM环境中生效的话,将使jBPM总是执行在特 ...
第21章 jBPM流程定义语言(JPDL) JPDL指定一个XML模式和机制来打包所有的流程定义相关的文件进入一个流程包中。 21.1. 流程包 流程包是一个zip文件。流程包中的中心文件是processdefinition.xml。在那个文件中的主要的信息是流程图。processdefinition.xml也包含关于动作和任务的信息。流程包也能包含其他的相关文件,例如类、任务的ui表单(
第20章 业务流程仿真 jBPM包含一个仿真组件,这个是jBPM业务流程仿真的杠杆。这个仿真组件文档还在开发中。 关于仿真的属性和如何使用这个仿真的教程的信息在下面这个地址: http://www.camunda.com/jbpm_simulation/introduction.html。     这章jbpm有点不负责噢,so short!不过好像跟我无关噢! opps!
第19章 日志 日志的目标是保持追踪流程执行的历史。在运行时流程执行数据的改变、所有数据(delta's)被存储在日志中。 本章所涉及的流程日志,不要同软件日志混淆。软件日志跟踪软件程序的执行(通常是为了除错)。流程日志跟踪流程实例的执行。 流程日志信息有各种用例。最明示的是通过流程执行的参与人查询流程历史。 另一个用例是业务活动监控(Business Activity Monitoring (BAM))。BAM将查询或分析流程执行的日志来找出关于业务过程的有用的统计信息。例如:流程的每一步平均花费多少时间?流程中哪里有瓶颈?……这样的信息是一个组织实现真正的流程管理的关键。真正的业务流程管理 ...
第18章 Web Services支持 本章描述了jBPM jPDL中开箱即支持的web services。 18.1. 调用jPDL Web Services jPDL中有一个WS子项目。这个子项目的目的是允许jPDL引擎作为一个web sevice被调用。当前的实现允许你从流程定义启动流程实例并提供一个运行实例触发器来继续他们的执行(execution)。它还不太精细,但还是能够作为实现更高级用途的起始。
第17章 邮件支持 本章描述了jBPM jPDL中随包发行的邮件支持。 17.1. jPDL中的邮件 从流程中发送邮件有四种指定的方式。 17.1.1. 邮件动作 邮件动作能够用来发送邮件而不是在流程图中显示一个节点。 允许你在在流程的任何地方来指定动作,你可以像这样指定一个邮件动作: <mail actors="#{president}" subject="readmylips" text="nomoretaxes" />
第16章 商务日历 本章描述了jBPM的商务日历。商务日历知道关于业务小时和用于任务和定时器的到期的计算。 商务日历能够通过在基准日期(base datea)上加或减去一个持续时间(duration to)来计算到期日期。如果基准日期被忽略,那么会使用当前('current')日期。 16.1. 到期日期 正像提到的那样,到期日期是由持续时间(duration)和基准日期(base date)。如果这个基准日期被忽略,持续时间是相对于计算到期日期时的那个日期(时间)。格式是:
Global site tag (gtag.js) - Google Analytics