- 浏览: 191390 次
- 性别:
- 来自: 大连
最新评论
-
kingding:
我编译之后吧jar包拷贝到lib后按照你的配置修改后运行报错: ...
基于flume-ng抓取mysql数据到kafka -
somefuture:
集成spring?spring现在没有xml了,怎么改呢
CXF集成Spring -
zhao_rock:
string2020 写道<mirrorOf>ce ...
使用Maven为代码构建依赖包 -
string2020:
<mirrorOf>central</mir ...
使用Maven为代码构建依赖包 -
aiien007:
同上
工作的感受
文章列表
a
http://www.cnblogs.com/daizhuacai/archive/2013/01/17/2865132.html
首先用adduser命令添加一个普通用户,命令如下:#adduser tommy //添加一个名为tommy的用户#passwd tommy //修改密码
方法二:修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,如下所示:## Allow root to run any commands anywhereroot ALL=(ALL) ALLtommy ALL=(ALL) ALL修改完毕 ...
好文章:
https://dzone.com/articles/building-rest-service-scala
http://liubin.org/blog/2016/03/05/tsdb-opentsdb/
ehcache.xml
<?xml version="1.0" encoding="UTF-8"?>
<ehcache xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLo ...
附件
参考资料:http://blog.csdn.net/lipeng_bigdata/article/details/50947891
参考资料:
原理流程
http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1111_luol_sso/1111_luol_sso.html
http://blog.csdn.net/csethcrm/article/details/20694993
opensaml插件
https://wiki.shibboleth.net/confluence/display/OpenSAML/Home/
代码实现
http://www.tuicool.com/articles/muAbQ3
...
通常导出SQLServer数据库的方式有两种:
1.以SQL文件的方式导出
2.以mdf和ldf数据库文件的方式导出
SQL文件的导出方式,通常需要自定义列与列之间的分隔符,因为默认的分隔符",",很可能出现在列的值中
下面介绍一下导出和导入mdf和ldf的方式
在sqlserver management studio进行如下操作
1.导出数据库 1.1 脱机,(选择的数据库右键 tasks -> take offline )注意这会导致数据库当前不可用 1.2 到数据库的数据路径,拷贝出mdf,ldf文件 sqlserver默认的数据 ...
介绍一下Spark将RDD转换成DataFrame的两种方式。
1.通过是使用case class的方式,不过在scala 2.10中最大支持22个字段的case class,这点需要注意
2.是通过spark内部的StructType方式,将普通的RDD转换成DataFrame
装换成DataFrame后,就可以使用SparkSQL来进行数据筛选过滤等操作
下面直接代码说话
package spark_rdd
import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.sql. ...
记录一下,有时间的时候研究,挺感兴趣的
http://www.iteye.com/news/31803
RDD概念:
RDD是只读的,分区记录的集合
RDD支持基于工作集的应用,同时具有数据流模型的特点:
自动容错
位置感知性调度
可伸缩性
速度快的原因:RDD允许用户在执行多个查询时显式的将工作集缓存在内存中,后续的查询能够重用工作集
RDD的5个主要属性
1.一组分片(Partition),数据集的基本组成单位.
每个Partition都会被逻辑映射成BlockManager的一个Block,
而这个Block会被一个Task负责计算。
2.一个计算每个分区的函数compute
3.RDD之间的依赖关系。
在部分数据丢失时,Spark可以通过依赖关系重新计算丢失的分区数据
4 ...
阅读Flume源码后发现,Flume有两个顶级的接口:
1. ConfigurationProvider接口,提供了getConfiguration()方法,用于获取不同组件的配置。
2. LifecycleAware接口,提供了三个方法,start() stop()和getLifecycleState(),分别用于组件的启动 停止以及组件在生命周期中处的状态,可以说这个接口贯穿于整个Flume中。
继续Flume-ng启动过程的源码分析,Flume启动类org.apache.flume.node.Application,所有组件加载完毕后会调用start方法。下面的代码中可以看到,star ...
Flume-ng 1.6启动过程源码分析(一)
- 博客分类:
- flume
启动部分主要分为四块
命令行参数的载入,这部分用的common cli实现
对于可选的zk配置的加载
对于flume-ng配置的加载,这里利用EventBus实现配置文件动态加载
组件的启动
简单介绍下EventBus,它是Guava提供的消息发布-订阅类库,机制与观察者模式类似。
下面主要介绍上面提到的第3和4部分。
首先
最近接触了flume,这个日志收集器在扩展性方面确实很便捷,相信这与其架构的设计有密切的关系。书归正传,这次用到了hdfs sink在使用时还是有几点需要注意的,在此和大家分享一下。
第一部分windows下搭建单机的hdfs
如果你和我一样没有linux的测试环境,想在windows搭建hdfs,可以参考下面的链接,笔者就是参照这篇文章进行部署的
http://blog.csdn.net/jiutianhe/article/details/17709717
需要注意的是windows下使用hdfs需要依赖hadoop.dll winutils.exe等,此处有两点需要注意
1 ...
flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/
在apache flume的官网上没有找到sql数据源数据抓取的source,
可以利用github上的plugin插件:https://github.com/keedio/flume-ng-sql-source,1.4.3版本基于hibernate实现,已可以适配所有的关系型数据库。
目前的实验环境是在windows下,所以kafka在windows下相关的配置使用,参考了http://blog.csdn.net/linsongbin1/article/details/480 ...
利用scala的trait特性实现简单AOP
- 博客分类:
- scala
最近开始系统的研究下scala
trait字面意思是特质或者特征,这里翻译成特征比较合适。
scala中trait的意义和java中接口很类似,但是trait支持实现,也就是说在scala的trait中方法可以是抽象方法,也可以是带实现的非抽象方法。另一个重要的与java interface的不同点,scala可以在一个class实例化的时候通过with关键字混合进一个trait。with关键字用来实现包装器的功能。利用上面提到的特性,来实现一个简单的AOP
定义一个SchoolTrait,添加一个抽象方法,不需要将方法声明为abstract,特征中未被实现的方法默认就是抽象的
...