`
x10232
  • 浏览: 57324 次
  • 来自: 北京
社区版块
存档分类
最新评论

解压parquet格式文件到text

 
阅读更多

方法一:spark python实现

import sys
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext

inputpath=sys.argv[1]
outputpath=sys.argv[2]
sc = SparkContext(appName="Transform Pq to Csv")
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet(inputpath)
df.select('*').save(outputpath,"com.databricks.spark.csv",delimiter='\001')

 

 

run:spark-submit --packages com.databricks:spark-csv_2.10:1.2.0 --master yarn-client read_pq.py /tmp/xing/20161115/1049 /tmp/xing/20161115/text/1049

 

方法二:如果是parquet表里的数据,可以通过hql查询得到数据

insert overwrite (local) inpath outputpath

select * from table1_parquet;

分享到:
评论

相关推荐

    parquet-common-1.10.0-API文档-中文版.zip

    赠送Maven依赖信息文件:parquet-common-1.10.0.pom; 包含翻译后的API文档:parquet-common-1.10.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.parquet:parquet-common:1.10.0; 标签:apache、...

    22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件

    以下是一个简单的示例,展示如何从Text文件写入到Gzip压缩的Text文件: ```java conf.set("mapreduce.output.fileoutputformat.compress", "true"); conf.set("mapreduce.output.fileoutputformat.compress.codec",...

    7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法

    在大数据处理领域,文件存储格式和压缩算法是关键要素,它们直接影响到数据的存储效率、查询性能和资源利用率。以下是对这些知识点的详细说明: **一、文件存储格式** 1. **行式存储(Row-Based)** - 行式存储将...

    hive的安装与配置.zip

    这可能涉及到Hive的分区、桶、存储格式(如TextFile、ORC、Parquet)以及JOIN、GROUP BY等操作的使用技巧。 总的来说,Hive是一个强大的大数据处理工具,它简化了对Hadoop数据的SQL查询,使得非编程背景的用户也能...

    hive安装包Linux包

    6. **存储格式**: Hive支持多种数据存储格式,如TextFile、SequenceFile、ORC和Parquet,其中ORC和Parquet是高效的列式存储格式,适合大数据分析。 ### Hive的安装步骤 1. **系统准备**: 确保系统已安装Java运行...

    深入浅出 Hive

    Hive 支持多种文件格式,如 TextFile、RCFile、ORC、Parquet 等,其中 ORC 和 Parquet 提供了更好的压缩和列式存储,提高了查询性能。 7. Hive 体系结构 Hive 包含了元数据服务器、客户端和执行器等组件,元数据...

    apache-hive-1.2.1-bin.tar.zip

    5. **存储格式**:Hive支持多种存储格式,如TextFile、SequenceFile、RCFile、Parquet等,每种格式都有其优缺点,适用于不同的场景。例如,Parquet是列式存储格式,适合大数据分析。 **Hive安装与配置** 1. **解压...

    apache-hive-1.2.1

    - 根据业务需求选择合适的存储格式,如TextFile、ORC、Parquet等,每种格式都有其优缺点。 - 考虑数据分区和桶化,以提高查询性能。 - 使用适当的查询优化策略,如避免全表扫描,利用索引等。 - 定期维护和优化Hive...

    apache-hive-2.3.2-bin.tar.gz

    6. **多种存储格式**:支持多种数据存储格式,如 TextFile、RCFile、Parquet、ORC 等,每种格式都有其特定的优势和应用场景。 7. **Hive 支持的运算符和函数**:包括算术运算符、比较运算符、逻辑运算符、聚合函数...

    hadoop&spark使用教程详细介绍文档

    可以使用多种格式读取数据,如 CSV、JSON、Parquet 等。 3. **转换和行动**: - 转换操作是指对数据进行的各种变换操作,如 `map`、`filter`、`reduceByKey` 等。 - 行动操作则是触发计算的操作,如 `collect`、`...

    apache-hive-2.1.0-bin.tar.gz

    7. **Storage Handling**:Hive可以支持多种数据存储格式,如TextFile、RCFile、Parquet、ORC等,每种格式都有其独特优势,例如压缩效率、列式存储和优化查询性能。 8. **Hive SerDes (SerDe)**:序列化和反序列化...

    实验3 操作手册-基于Hive的开源软件社区数据分析1

    - 创建Hive表,定义列名和数据类型,选择合适的存储格式(如TextFile、ORC或Parquet)。 - 使用LOAD DATA命令从HDFS或其他数据源加载数据到Hive表。 - 使用SELECT、JOIN、GROUP BY等SQL语句进行数据查询和分析。 ...

    第6章:Hive性能优化及Hive3新特性1

    文件格式的选择(如TextFile、ORC、Parquet)对查询性能有很大影响。ORC和Parquet是列式存储格式,支持压缩,能大幅减少存储空间,并提升查询效率。合理选择数据压缩算法(如Snappy、Gzip、LZO)可在保证解压速度的...

    apache-hive-1.2.1-src

    5. **Hive SerDes (Serialization/Deserialization)**:负责数据的序列化和反序列化,不同的SerDe支持不同的数据格式,如TextFile、Parquet、ORC等。 6. **HiveQL**:Hive的SQL方言,提供了一种方便的方式来查询和...

    Hive用户指南(Hive_user_guide)_中文版pdf

    7. **Hive优化**:包括选择合适的存储格式(如TextFile、RCFile、Parquet)、使用分区和桶优化查询、调整执行计划、启用数据压缩等策略。优化的主要目标是提高查询效率和减少资源消耗。 8. **Hive与其他系统集成**...

    Hive教程.pdf

    - **常见文件格式**: TextFile、SequenceFile、Avro、Parquet、ORC等。 - **列式存储**: 如Parquet和ORC,这些格式更高效地支持大数据分析。 - **Hive压缩方法**: - **压缩的原因**: 减少存储空间和网络传输时间...

Global site tag (gtag.js) - Google Analytics