`
zhao_rock
  • 浏览: 191353 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论
文章列表
ITEYE不维护了,是时候搬家到CSDN了

HDP

 a http://www.cnblogs.com/daizhuacai/archive/2013/01/17/2865132.html   首先用adduser命令添加一个普通用户,命令如下:#adduser tommy  //添加一个名为tommy的用户#passwd tommy   //修改密码 方法二:修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,如下所示:## Allow root to run any commands anywhereroot    ALL=(ALL)     ALLtommy   ALL=(ALL)     ALL修改完毕 ...
好文章: https://dzone.com/articles/building-rest-service-scala http://liubin.org/blog/2016/03/05/tsdb-opentsdb/   ehcache.xml   <?xml version="1.0" encoding="UTF-8"?> <ehcache xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"    xsi:noNamespaceSchemaLo ...

Alluxio介绍

附件 参考资料:http://blog.csdn.net/lipeng_bigdata/article/details/50947891
参考资料:   原理流程 http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1111_luol_sso/1111_luol_sso.html http://blog.csdn.net/csethcrm/article/details/20694993   opensaml插件 https://wiki.shibboleth.net/confluence/display/OpenSAML/Home/   代码实现 http://www.tuicool.com/articles/muAbQ3 ...
最近准备把上面写的东西搬到CSDN上了
通常导出SQLServer数据库的方式有两种: 1.以SQL文件的方式导出 2.以mdf和ldf数据库文件的方式导出   SQL文件的导出方式,通常需要自定义列与列之间的分隔符,因为默认的分隔符",",很可能出现在列的值中 下面介绍一下导出和导入mdf和ldf的方式 在sqlserver management studio进行如下操作 1.导出数据库   1.1 脱机,(选择的数据库右键 tasks -> take offline )注意这会导致数据库当前不可用   1.2 到数据库的数据路径,拷贝出mdf,ldf文件    sqlserver默认的数据 ...
介绍一下Spark将RDD转换成DataFrame的两种方式。 1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意 2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame 装换成DataFrame后,就可以使用SparkSQL来进行数据筛选过滤等操作 下面直接代码说话 package spark_rdd import org.apache.spark._ import org.apache.spark.sql._ import org.apache.spark.sql. ...
记录一下,有时间的时候研究,挺感兴趣的 http://www.iteye.com/news/31803
RDD概念: RDD是只读的,分区记录的集合 RDD支持基于工作集的应用,同时具有数据流模型的特点: 自动容错 位置感知性调度 可伸缩性 速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集 RDD的5个主要属性 1.一组分片(Partition),数据集的基本组成单位.   每个Partition都会被逻辑映射成BlockManager的一个Block,   而这个Block会被一个Task负责计算。 2.一个计算每个分区的函数compute 3.RDD之间的依赖关系。   在部分数据丢失时,Spark可以通过依赖关系重新计算丢失的分区数据 4 ...
阅读Flume源码后发现,Flume有两个顶级的接口: 1. ConfigurationProvider接口,提供了getConfiguration()方法,用于获取不同组件的配置。 2. LifecycleAware接口,提供了三个方法,start() stop()和getLifecycleState(),分别用于组件的启动 停止以及组件在生命周期中处的状态,可以说这个接口贯穿于整个Flume中。 继续Flume-ng启动过程的源码分析,Flume启动类org.apache.flume.node.Application,所有组件加载完毕后会调用start方法。下面的代码中可以看到,star ...
 启动部分主要分为四块   命令行参数的载入,这部分用的common cli实现 对于可选的zk配置的加载 对于flume-ng配置的加载,这里利用EventBus实现配置文件动态加载 组件的启动 简单介绍下EventBus,它是Guava提供的消息发布-订阅类库,机制与观察者模式类似。   下面主要介绍上面提到的第3和4部分。 首先
最近接触了flume,这个日志收集器在扩展性方面确实很便捷,相信这与其架构的设计有密切的关系。书归正传,这次用到了hdfs sink在使用时还是有几点需要注意的,在此和大家分享一下。   第一部分windows下搭建单机的hdfs 如果你和我一样没有linux的测试环境,想在windows搭建hdfs,可以参考下面的链接,笔者就是参照这篇文章进行部署的 http://blog.csdn.net/jiutianhe/article/details/17709717 需要注意的是windows下使用hdfs需要依赖hadoop.dll winutils.exe等,此处有两点需要注意 1 ...
flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/   在apache flume的官网上没有找到sql数据源数据抓取的source, 可以利用github上的plugin插件:https://github.com/keedio/flume-ng-sql-source,1.4.3版本基于hibernate实现,已可以适配所有的关系型数据库。 目前的实验环境是在windows下,所以kafka在windows下相关的配置使用,参考了http://blog.csdn.net/linsongbin1/article/details/480 ...
最近开始系统的研究下scala   trait字面意思是特质或者特征,这里翻译成特征比较合适。 scala中trait的意义和java中接口很类似,但是trait支持实现,也就是说在scala的trait中方法可以是抽象方法,也可以是带实现的非抽象方法。另一个重要的与java interface的不同点,scala可以在一个class实例化的时候通过with关键字混合进一个trait。with关键字用来实现包装器的功能。利用上面提到的特性,来实现一个简单的AOP 定义一个SchoolTrait,添加一个抽象方法,不需要将方法声明为abstract,特征中未被实现的方法默认就是抽象的 ...
Global site tag (gtag.js) - Google Analytics