private static List<String> showRCFile (Path src,Configuration conf) {
List<String> list = new ArrayList<String>();
try {
FileSystem fs = FileSystem.get(src.toUri(), conf);
long fileLen = fs.getFileStatus(src).getLen();
FileSplit split = new FileSplit(src,0, fileLen, new JobConf(conf));
RCFileRecordReader recordReader = new RCFileRecordReader(conf, split);
LongWritable key = new LongWritable();
BytesRefArrayWritable value = new BytesRefArrayWritable();
Text txt = new Text();
String resultStr = null;
int y = 0;
while (recordReader.next(key, value)) {
//if (y == 10) break;
resultStr = "";
txt.clear();
for (int i = 0; i < value.size(); i++) {
BytesRefWritable v = value.get(i);
txt.set(v.getData(), v.getStart(), v.getLength());
resultStr = resultStr + txt.toString();
if (i < value.size() - 1) {
// do not put the TAB for the last column
resultStr = resultStr + TAB;
}
}
resultStr = resultStr + NEWLINE;
list.add(resultStr);
y++;
}
} catch (Exception e) {
e.printStackTrace();
}
return list;
}
分享到:
相关推荐
mapreduce生成RCFile的jar包
### Facebook数据仓库揭秘之RCFile高效存储结构 #### RCFile高效存储结构概述 Facebook的数据仓库在处理海量数据方面面临着巨大挑战。为了优化数据处理效率,Facebook引入了一种名为RCFile(Record Columnar File...
DataFrame的发展历程中,从早期的SchemaRDD演变为现在的df,增加了Schema并提升了执行效率,特别是对于ORC、RCFile、Parquet等特定数据格式,可以进行选择性读取。Spark 1.6引入了Dataset,它是DataFrame的强类型...
使用以下命令读取 Impala 或 Hive 中的 RCFile 数据: CREATE EXTERNAL TABLE rc_output (field1name field1type, [etc.]) STORED AS RCFILE LOCATION '/your/output/path/'; SELECT * FROM rc_output;
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用
jar包,官方版本,自测可用