结构化热门博客列表 - ITeye博客频道

博客专栏推荐

本月博客排行

年度博客排行

结构化文本的不定行日志解析

在将日志文本解析成结构化数据时时，常会遇到记录由数量不定的多行组成的情况。这种变换存在一定的复杂性，实现复杂度较高。集算器支持正则表达式、字串拆分、隔行取数、横向拼接等灵活的结构化计算函数，适合处理此类文本。下面通过例子来看一下具体作法。日志文件reportXXX.log存储着若干记录，每条记录由多行构成，包括14个数据项（字段）。记录以字符串“Object ...

文本文件结构化日志解析

datamachine 评论(0) 有2153人浏览 2015-01-09 10:53

海量结构化数据的计算探讨

电信运营商每天需要对生产系统产生的海量数据进行分析，首先要从各远端生产系统提取数据，清洗加工等等（ETL），后续就是数据的运算处理，数据量相当大，每天都是TB级，但主要以结构化数据为主，故对于此类有钱的主必然使用oracle。据我观察对于数据的处理基本上都是采用存储过程进行处理，举个简单的例子，抽取用户的3个月消费数据进行一些类似平均本地通话时长，平均本地通话费用...等等诸如此类的 ...