`

hbase hdfs sink

 
阅读更多
bin/flume-ng agent --conf conf --conf-file conf/hbase.conf --name a1 -Dflume.root.logger=INFO,console
 
 
# example.conf: A single-node Flume configuration
 
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 12345
 
# Describe the sink
a1.sinks.k1.type = logger
 
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
 
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
 
#HDFS sink
a1.channels = c1
a1.sinks = k1
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/%y-%m-%d/%H
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp = true                        #sink是hdfs,然后使用目录自动生成功能。出现如题的错误,看官网文档说的是需要在每个文件记录行的开头需要有时间戳,但是时间戳的格式可能比较难调节,所以亦可设置  hdfs.useLocalTimeStamp这个参数,比如以每个小时作为一个文件夹,那么配置应该是这样
##解决错误:

java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

#HBASE
a1.channels = c1
a1.sinks = k1
a1.sinks.k1.type = hbase
a1.sinks.k1.table = flume
a1.sinks.k1.columnFamily = f1
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
a1.sinks.k1.channel = c1
 
 
 
读取数据通道的方式:
netcat
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 12345
根据端口连接传数据
telnet localhost 233333
 
avro
agent1.sources.source1.type = avro
agent1.sources.source1.bind = localhost
agent1.sources.source1.port = 44444
处理序列化数据
 
exec
a1.sources=r1
a1.channels=c1
a1.sources.r1.type=exec
a1.sources.r1.command=tail -F /var/log/secure
a1.sources.r1.channels=c1
处理命令行
 
测试端口
netstat -tnl | grep 23
tcp        0      0 0.0.0.0:36232               0.0.0.0:*                   LISTEN     
tcp        0      0 :::23                       :::*                        LISTEN     
 
访问端口
telnet localhost 23
 

查看端口任务

ps -ef|grep 23
 
 

查看端口占用状态

lsof -i:23
 
 
 
# example.conf: A single-node Flume configuration
 
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 12345
 
# Describe the sink
a1.sinks.k1.type = logger
 
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
 
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
 
#HDFS sink
a1.channels = c1
a1.sinks = k1
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/%y-%m-%d/%H
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp = true
 
#HBASE
a1.channels = c1
a1.sinks = k1
a1.sinks.k1.type = hbase
a1.sinks.k1.table = flume
a1.sinks.k1.columnFamily = f1
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
a1.sinks.k1.channel = c1
分享到:
评论

相关推荐

    flume-ng-hdfs-sink-1.7.0.jar

    flume-ng-hdfs-sink-1.7.0.jar,这个包里包含了flume和HDFS集成的所有类

    (源码)基于Hadoop和HBase的日志数据处理系统.zip

    # 基于Hadoop和HBase的日志数据处理系统 ## 项目简介 本项目是一个基于Hadoop和HBase的日志数据处理系统,旨在通过... HDFS Sink: 实现了多个HDFS Sink组件,用于将Flume中的数据写入HDFS,支持压缩和序列化格式。

    flume 简介安装使用案例(将log4j数据写到hdfs中)

    在 Flume 中使用 Avro,可以通过设置 `agent_name.sinks.hdfsSink.serializer.class` 为 `org.apache.flume.sink.hdfs.HDFSEventSink$AvroEventSerializer` 来启用。 综上所述,Flume 是一个强大的日志收集工具,...

    大数据采集技术-Flume监控端口实验手册.pdf

    agent.sinks.hdfsSink.hdfs.path = hdfs://localhost:9000/user/flume/data agent.sinks.hdfsSink.hdfs.fileType = DataStream agent.sinks.hdfsSink.hdfs.writeFormat = Text agent.sinks.hdfsSink.hdfs.batch...

    《数据采集与预处理》教学教案—07Flume采集数据上传到集群.pdf

    Flume支持多种数据源和Sink,能够将采集的数据传输到HDFS、HBase、Kafka等数据存储系统中。 二、HDFS Sinks HDFS Sinks是Flume中的一种Sink,用于将采集的日志数据写入到HDFS中。HDFS Sinks的配置示例如表3-9所示...

    关系型数据库的数据导入Hbase

    可以通过配置Flume源、通道和sink,将关系型数据库的变更实时同步至Hbase。 - Apache Kafka:Kafka作为一个高吞吐量的分布式消息中间件,可以用于数据流的发布订阅。结合Kafka Connect,可以实现实时将RDBMS变化...

    大数据技术应用(一) 应用Flume+HBase采集和存储日志数据

    最后,Sink将数据传输到目标位置,例如HDFS(Hadoop Distributed File System)或HBase。 接下来,我们探讨HBase,这是一个基于Google Bigtable设计的开源NoSQL数据库,运行在Hadoop之上。HBase提供随机读写、高...

    flime安装+配置+测试+案例(采集日志至HDFS)

    最后,Sink 负责将数据写入目标,例如 HDFS。 为了模拟日志生成,我们可以编写一个简单的 Shell 脚本,该脚本周期性地生成带有主机名和时间戳的日志条目。然后,Flume 的配置文件需要更新以包含这个新的日志源。 ...

    apache hbase reference guide

    - **HBase as a MapReduce Job DataSource and Data Sink**(HBase作为MapReduce作业的数据源和数据接收器):如何将HBase作为MapReduce作业的输入输出。 - **Writing HFiles Directly During Bulk Import**(批量...

    flume 调研报告及安装部署

    它支持多种数据源(source),如网络套接字、syslog、JMS、Kafka等,并能够将这些数据传输到各种接收器(sink),例如HDFS、HBase、Cassandra、Avro等。 ### 2. FLUME 特点 - **可靠性**:FLUME 提供了容错机制,...

    java源码:日志服务器 Apache Flume.tar.gz

    Sink 类型同样丰富,包括 HDFS Sink、HBase Sink、Kafka Sink 等,可以将数据写入各种存储系统。 在实际应用中,Flume 还支持动态重配置,这意味着在运行时可以修改 Flume 配置,无需停止服务即可添加、删除或更新...

    flume解析日志所需jar

    它设计的目标是具有高可用性、容错性和可扩展性,能够处理来自不同源的日志数据,并将其传输到各种目标,如Hadoop HDFS、HBase或Elasticsearch等。在你的场景中,Flume被用来解析从Kafka中获取的日志,然后将解析后...

    基于Java的实例源码-日志服务器 Apache Flume.zip

    4. **Sink**: Flume的Sink同样有多种预设类型,如HDFS Sink用于将数据写入Hadoop分布式文件系统,HBase Sink用于写入HBase数据库,或者Kafka Sink用于将数据推送到Kafka主题。开发者可以通过源代码学习如何扩展Flume...

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    配置Flume涉及定义source、sink和channel,以实现数据流动。 Flink是另一种高性能的流处理框架,它在低延迟和状态管理方面有出色表现。Flink可以与Kafka集成,实现实时数据处理。 Elasticsearch是一个实时的分布式...

    16:Flume+HBase+Kafka集成开发.rar

    Source负责从不同数据源收集数据,Channel作为临时存储确保数据传输的可靠性,而Sink则将数据发送到目的地,如HDFS或HBase。 Kafka是由LinkedIn开发并贡献给Apache的分布式流处理平台,它是一个高吞吐量、低延迟的...

    flume教程及配置讲解共23页.pdf.zip

    常见的Sink有HDFSSink、HBaseSink、NullSink(丢弃数据)等。Sink的配置包括目标系统的地址、认证信息、数据格式等。 5. **配置文件**: Flume通过配置文件来定义Agent的结构和行为,通常为ASCII文本格式,包含...

    Flume视频+文档资料.rar

    Flume内建了多种sink,如HDFS sink、HBase sink、Avro sink等,同样支持自定义开发。 **二、Flume工作流程** Flume通过配置多个source、channel和sink来构建数据流管道。数据首先由source捕获,然后存储到channel...

    大数据采集技术-flume监控httpsources.pdf

    它支持多种数据源(如Syslog、HTTP、Thrift等),并能够将这些数据流式传输到各种目的地,如HDFS、HBase、Solr等。Flume的特性包括容错性、可扩展性和易于管理,使得它成为大数据背景下理想的日志管理和分析工具。 ...

    Flume安装包、安装文档

    常见的Sink包括HDFS Sink、HBase Sink、Null Sink等。 4. **Agents**:Flume的核心组件是Agent,它由Source、Channel和Sink三部分组成,每个Agent可以独立运行,也可以通过配置形成多级流结构,实现数据的级联传输...

Global site tag (gtag.js) - Google Analytics