- 浏览: 3795 次
- 性别:
- 来自: 北京
-
最新评论
文章列表
1 -F 分隔符包含特殊字符
A 方括号 []
三个右斜杠转义 -F'\\\['
B 单引号
单引号外面用 -F"'"
整合在一起的示例
awk -F"\\\[ '" '{print $2}' 文件名 | awk -F"'" '{print $1}' > out
2 常用内置函数
split
3 同时处理多个文件
4 文件去重
flume 官方插件,常用两种方式采集增量日志
1 exec 插件可以执行 Shell tail -f 文件 命令。优点,实时采集,缺点。如果flume进程重启。将无法找到当时的checkpoint。特别是主文件已经被log4j切走,或者被Shell脚本切走
2 spool 插件可以检测目录下新增的文件,处理过的文件用.COMPLETE文件名称结束。优点,Flume内部实现了checkpoint断点续传。(如何实现的?)缺点是不够实时。除非日志不按小时或者天级别切分,按分钟级别切分。这样产生的临时文件很多。不容易实现秒级别的采集
3 每隔几秒钟读一下文件。甚至可以while true不休息。 ...