hive中自定义RegexSerDe尝试 -

luoshi0801

浏览: 148514 次
性别:
来自: 杭州

最近访客更多访客>>

lzy8828

lygily

lzn-boy

jeffsc

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive中自定义RegexSerDe尝试

博客分类：

hadoop相关

当原始数据中包好了诸如'\u0001'、'\u0002'、'\u0003'等hive默认的column分隔字符时，在select数据时就可能出现数据格式错乱的情况，为了避免这类现象，可以用自定义的RegexSerDe规避这类特殊字符。

例子：

ac18148213512592717614403|1351259272977|0.44|ulc|302|302^R670777442^RLBX001442114792309^R670777442^R2^R2??a±à??=KJ-0005,?ò?ònickangning^R^R^R^Rip^A^Rumid^A^RbuyerNick^Awnwangning^RStoreCode^AKJ-0005

对于这样的例子，如果尝试在创建hive表时存在如下指定：

     ROW FORMAT
     SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
     WITH SERDEPROPERTIES
    ( "input.regex" = "(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*$)",
         "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s")

然后在加载数据后做select时就会发现展现出来的最后一列在“ip”后面没有了。

通过检验发现RegexSerDe按指定的正则切分完全正确，但hive在组装返回结果时会根据特殊字符（^A,^B,^C三种）做“二次切分”，因为例子中“ip”后面恰好有个^A所以被截断了，又因为"ip"所在的列是表的最后一列，所以"ip"后面的内容被直接丢掉了，否则会错位到表的下一列。

解决的办法就是用自定义的MyRegexSerDe对特殊字符做简单替换，相比原RegexSerDe，只增加上一个简单逻辑：

for (int c = 0; c < numColumns; c++) {
try {

        //对原数据的最后一列做特殊字符替换
        if (c == numColumns - 1) {
          row.set(c, m.group(c + 1).replace((char)1, ','));
        } else {
          row.set(c, m.group(c + 1));
        }
      } catch (RuntimeException e) {
        partialMatchedRows++;
        if (partialMatchedRows >= nextPartialMatchedRows) {
          nextPartialMatchedRows = getNextNumberToDisplay(nextPartialMatchedRows);
          // Report the row
          LOG.warn("" + partialMatchedRows
              + " partially unmatched rows are found, " + " cannot find group "
              + c + ": " + rowText);
        }
        row.set(c, null);
      }
    }

然后打包上传，执行hive sql时加载jar路径和指定自定义的RegexSerDe，问题得以解决。

分享到：

Hdfs之DistributedCache | 将hdfs文件导入hive表

2013-03-10 18:27
浏览 5570
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive中自定义RegexSerDe尝试

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive中自定义RegexSerDe尝试

评论

发表评论

相关推荐

hadoop如何封装shell脚本

异步hbase的用法

Hdfs之DistributedCache

将hdfs文件导入hive表

最近访客更多访客>>