`
Taoo
  • 浏览: 293924 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive中应用lzo

 
阅读更多
在建表的时候,进行两个设置:
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
然后,基本上就是透明操作hive了。




http://blog.csdn.net/jiedushi/article/details/7352512
以下内容为转载:


1,确保创建索引
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog

2 如果在hive中新建外部表的语句为

CREATE EXTERNAL TABLE foo (
         columnA string,
         columnB string )
    PARTITIONED BY (date string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
          OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
    LOCATION '/path/to/hive/tables/foo';


3  对于已经存在的表修改语句为

ALTER TABLE foo
    SET FILEFORMAT
        INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
        OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

4 alter table后对已经load进表中的数据,需要重新load和创建索引,要不还是不能分块

5 用hadoop streaming编程执行mapreduce作业语句为

hadoop jar /opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar -file /home/pyshell/map.py -file /home/pyshell/red.py  -mapper /home/pyshell/map.py -reducer /home/pyshell/red.py -input /aojianlog/20120304/gold/gold_38_3.csv.lzo -output /aojianresult/gold38 -inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat -jobconf mapred.output.compress=true -jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

注意 如果没有-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat 选项的话map作业也不会分片

没有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec选项只设置-jobconf mapred.output.compress=true 选项的话 reduce作业输出文件的格式为.lzo_deflate
分享到:
评论

相关推荐

    HIVE相关的jar包

    这个压缩包文件“HIVE相关的jar包”包含了不同版本的Hive库文件,这些文件对于在Java环境下开发和运行Hive应用程序至关重要。下面我们将详细讨论Hive jar包及其在IT领域的应用。 首先,Hive jar包是Hive服务的核心...

    hadoop中使用的hive包

    2. `hive-jdbc.jar`:允许通过JDBC驱动程序连接到Hive服务器,从而在Java应用程序或任何支持JDBC的语言中进行Hive查询。 3. `hive-metastore.jar`:提供Hive元数据服务,存储表结构、分区信息等元数据,是Hive的中央...

    深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存

    ### 深入浅出Hive企业级架构优化 #### Hive概述 Apache Hive 是一个基于 Hadoop 的数据...总之,通过对 Hive 架构、SQL 语句、数据压缩以及分布式缓存等方面的综合优化,可以有效提升 Hive 在企业级应用中的表现。

    hive优化(ppt)

    在IT领域,特别是大数据处理与分析中,Hive作为一个数据仓库工具,被广泛应用于基于Hadoop的数据查询和分析。Hive通过将SQL语句转换成MapReduce任务来处理大规模数据集,大大简化了数据分析的过程。然而,由于其底层...

    hive调优总结文档-hive tuning ppt

    Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL方言(HQL)对存储在HDFS上的大规模数据进行查询和分析。在大数据处理中,Hive的...在实际应用中,应根据具体业务场景灵活调整和实施这些策略。

    第6章:Hive性能优化及Hive3新特性1

    虽然Hive不支持传统数据库中的B树索引,但可以通过创建虚拟列(Bucketing)和Skewed Join优化来模拟索引效果。虚拟列可根据特定列值将数据分配到不同的桶中,而Skewed Join则处理数据倾斜问题,通过预处理将倾斜...

    hive常见的优化方案ppt

    可以开启Hive的中间数据和最终数据压缩,使用`hive.exec.compress.output=true`和`hive.exec.compress.intermediate=true`,并选择合适的压缩编码器如LZO、GZIP或Snappy。 2. **处理数据倾斜**:数据倾斜发生在某些...

    hive参数优化文档

    在Hive的整体架构中进行优化,主要是为了提升查询处理效率及资源利用率。以下是一些关键点: 1. **表设计**: - **分区表**:根据查询维度进行分区,如日期分区等。这有助于减少扫描的数据量。 - **桶表**:通过...

    hive性能优化

    在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具...通过对参数调整、数据处理策略的选择以及查询优化技术的应用,我们可以显著提升Hive在大数据环境下的处理速度和资源利用率,使其更好地服务于数据分析需求。

    Hive小表的测试数据

    在实际应用中,我们可能会遇到如下几种与Hive小表相关的知识点: 1. **数据加载**:Hive小表的数据通常通过`LOAD DATA`命令从本地文件系统、HDFS或者其他数据源导入。例如,提供的压缩包文件"10万条小表数据(id为9...

    Hive编程指南

    根据提供的信息,我们可以推断出该文章...通过上述知识点的介绍,我们可以了解到Hive作为一种重要的大数据处理工具,在实际应用中扮演着非常关键的角色。无论是数据仓库建设还是数据分析工作,Hive都能提供强大的支持。

    站在hadoop上看hive

    ### 知识点一:Hive与Hadoop的关系及应用场景 在大数据处理领域,Hadoop与Hive常常被提及。Hive作为一个构建于Hadoop之上的数据仓库工具,旨在简化大数据集的处理过程,使非专业技术人员也能通过类似SQL的查询语言...

    hive从入门到放弃(六)——常用文件存储格式.doc

    Hive 文件存储格式是 Hive 中非常重要的概念,它直接影响着数据的存储和查询效率。在 Hive 中,常用的文件存储格式有 TextFile、ORC 和 Parquet 三种。下面我们将详细介绍这三种存储格式的特点和应用场景。 一、...

    hive常用优化方法大全共2页.pdf.zip

    Hive是Apache Hadoop生态...以上就是Hive优化的一些核心方法,每个策略都有其适用场景,实际应用中需结合具体业务需求和硬件资源进行综合考虑和调整。通过这些优化,可以极大地提升Hive在大数据分析中的效率和性能。

    elephant-bird-core-4.6rc1.zip

    大象鸟(Elephant Bird)是一个由Twitter开源的项目,主要用于处理LZO压缩的数据和协议缓冲区相关的Hadoop、Pig、Hive以及HBase的代码。这个项目的核心在于提供了一套高效的工具,使得在大数据处理框架中对LZO压缩...

    Apache Hive

    Apache Hive是一个开源的数据仓库工具,它基于Hadoop平台,使得用户可以使用类SQL语言(HQL)来查询Hadoop集群上的大型数据集。...由于其具备良好的扩展性和容错性,Hive广泛应用于离线数据仓库的建设中。

    prestoDB在京东的应用实践

    PrestoDB是由Facebook于2012年秋季启动的一个项目,其初衷是为了克服Hive查询中存在的高延迟问题。经过一段时间的研发与改进,PrestoDB在2013年的冬天正式开源,这标志着它开始被更广泛的社区所接受并得到进一步的...

    6、NIFI应用场景-离线同步Mysql数据到HDFS中

    - 在NIFI界面中,导入并应用模板,根据实际环境调整处理器参数。 - 配置每个处理器的属性,确保它们能够正确地连接到源和目标系统。 - 排列处理器以形成数据流,通过连接它们来定义数据的处理路径。 - 启动流程...

Global site tag (gtag.js) - Google Analytics