`

greenplum外部表查询hdfs数据

 
阅读更多

原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2268290

 

1. 建表

CREATE EXTERNAL TABLE hdfs_test (
id int, name varchar(128)
)
LOCATION ('gphdfs://hadoopNameNode:8020/data/gpext/1.dat')
FORMAT 'TEXT' (DELIMITER ',')
;
select * from hdfs_test
;

2. 配置/home/gpadmin/.bashrc

export JAVA_HOME=/usr/jdk64/jdk1.8.0_40
export HADOOP_HOME=/usr/hdp/current/hadoop-client
export PATH=$PATH:$JAVA_HOME/bin/:$HADOOP_HOME/bin
export HADOOP_VERSION=2.7.1

3. 更新greenplum配置

gpconfig -c gp_hadoop_target_version -v hdp2
gpconfig -c gp_hadoop_home -v '/usr/hdp/current/hadoop-client'
gpstop -u
gpstop -r

 4. 如果还是出现下面异常

 

 

Exception in thread ""main"" java.lang.NoClassDefFoundError: org/apache/hadoop/mapreduce/TaskAttemptContext
        at java.lang.Class.getDeclaredMethods0(Native Method)
        at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
        at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
        at java.lang.Class.getMethod0(Class.java:3018)
        at java.lang.Class.getMethod(Class.java:1784)
        at sun.launcher.LauncherHelper.validateMain
Command: 'gphdfs://hadoopNameNode:8020/data/gpext/1.dat'

找不到类的原因,就是配置文件,经常查找相关资料,目前greenplum版本支持Hortonworks发行版HDP2.1,之后的版本并不支持,HDP2.2发行版安装的路径已经变化,通过查看cat /usr/local/greenplum-db/lib/hadoop/hadoop_env.sh的代码了解的mapreduce并没有添加到classpath中,找到问题就简单了,添加

if [ -d "$HADOOP_COMMON_HOME/client" ]; then
for f in $HADOOP_COMMON_HOME/client/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done
fi

再次重启greenplum使配置生效,经过测试,完美微笑 

 

 

 

 

 

...

分享到:
评论

相关推荐

    基于Greenplum Hadoop- 分布式平台的大数据解决方案26 - 查询数据(3).zip

    通过外部表功能,Greenplum 能够直接查询Hadoop 中的HDFS文件,这大大简化了数据的处理流程,同时利用了两者的优势:Hadoop 的低成本存储和Greenplum 的高性能分析。 课程“基于Greenplum Hadoop- 分布式平台的...

    基于Greenplum Hadoop- 分布式平台的大数据解决方案24 - 查询数据(1).zip

    Greenplum提供了外部表功能,可以透明地连接到Hadoop,允许用户通过SQL查询HDFS上的数据。 2. **ETL过程**:在查询之前,可能需要进行数据提取(Extract)、转换(Transform)和加载(Load,即ETL)。在Greenplum-...

    基于Greenplum Hadoop- 分布式平台的大数据解决方案31 - 装载和卸载数据(2).zip

    它采用MPP(大规模并行处理)架构,通过将数据分布在多台服务器上,实现快速的数据查询和分析。Greenplum 的优势在于其高效的查询性能和强大的SQL支持,适合进行复杂的数据分析任务。 Hadoop,另一方面,是Apache...

    Greenplum机器学习⼯具集和案例

    Greenplum强大的内核支持了其灵活性、可扩展性,如支持PL/X扩展、外部表机制和多种SQL标准接口。 在机器学习工具集方面,Greenplum提供了包括但不限于以下工具和接口: 1. PL/X:允许用户使用多种编程语言实现...

    Greenplum 架构概览1

    在Greenplum中,数据分区是将一张大表拆分为多个小表,以解决单表性能瓶颈。而分片则是将数据分布在多个Segment节点上,以达到负载均衡和提高查询效率。Greenplum允许同时进行分片和分区,数据分片和分区策略可以...

    基于Greenplum-Hadoop-分布式平台的大数据解决方案01-Greenplum架构(1)

    3. **联邦查询**: 通过Greenplum的外部表功能,可以直接查询HDFS上的数据,实现Hadoop与Greenplum之间的无缝集成。 4. **联合分析**: 结合Hadoop的批处理能力和Greenplum的在线分析处理(OLAP)能力,可以进行大规模...

    Greenplum数据库基础培训.pptx

    外部表是Greenplum的一个重要特性,允许用户将数据存储在数据库外部,如HDFS或文件系统中,然后通过SQL进行查询,实现灵活的数据导入和导出。并行加载则利用MPP架构加速大数据的加载过程,提高整体性能。 资源管理...

    01 - Greenplum架构(1).mp4

    支持定义外部表,允许直接查询Hadoop HDFS、Amazon S3等外部数据源,实现对异构数据的统一管理和分析。 9. **SQL兼容性**: Greenplum支持标准SQL,提供与PostgreSQL类似的语法,使得熟悉SQL的用户能够轻松上手。...

    基于Greenplum Hadoop- 分布式平台的大数据解决方案05 - 安装Greenplum(3)

    通过使用Hadoop的HDFS作为外部表源,Greenplum可以查询存储在Hadoop中的大数据集,无需将数据移动到Greenplum内部。这实现了数据湖和分析平台的无缝连接,提供了实时分析能力。 在安装完成后,需要进行系统调优和...

    GreenPlum入门学习手册

    - **GreenPlum支持与Hadoop的紧密集成**,可以将Hadoop作为外部数据源,利用Hadoop分布式文件系统(HDFS)存储的数据进行查询和分析。 #### 九、总结 GreenPlum是一款先进的分布式数据仓库解决方案,通过其独特的...

    Greenplum数据库使用总结(5.11版本).pdf

    - **创建加载数据的外部表**:如何创建外部表来使用gpfdist加载数据。 - **创建可写外部表**:如何创建可以插入数据的外部表。 - **杀掉gpfdist进程**:在必要时如何停止gpfdist进程。 以上知识点涵盖了...

    基于Greenplum Hadoop- 分布式平台的大数据解决方案17.定义数据库对象(7)-分区表.zip

    外部表定义了一个指向Hadoop数据的逻辑视图,使得在Greenplum中可以执行SQL查询,同时利用Hadoop的存储和处理能力。 5. **使用Hadoop分区表**: 在Hadoop中,可以使用类似于Hive的分区机制,为HDFS上的数据创建...

    pxf.tar.gz

    通过创建一个指向HDFS的外部表,可以像查询本地表一样查询分布式存储的数据。例如,以下是一个简单的创建外部表的示例: ```sql CREATE SERVER hdfs_server FOREIGN DATA WRAPPER pxf OPTIONS (protocol 'hdfs', ...

    全新的Greenplum 6.0内核优化解读和7.0展望.pdf

    同时,新版本引入了多态存储引擎,包括Heap、AppendOptimized、列存(AOCO)和外部表,以及全新的压缩方式(zstd)。这些技术可以满足不同场景下对数据存储和查询性能的需求。而灵活的资源管理,包括CPU配额、CPU...

    Greenplum内核技术优化解读.pdf

    - 外部表: 支持对非数据库文件的直接访问,如 CSV 文件或 Parquet 文件。 **2.6 灵活资源管理** - **并发度调整**: - 允许管理员根据系统负载动态调整并发度,提高资源利用率。 - **CPU 配额分配**: - 可以为...

    藏经阁-云时代大数据管理引擎HAWQ++.pdf

    数据的导入导出则可以借助hdfs外部表、gpfdist外部表、COPY命令以及hawq load工具完成。 此外,HAWQ++集成了MADlib,这是一个用于大数据的机器学习和数据库内分析库。安装MADlib只需几步简单操作,包括使用gppkg...

    5. Pivotal HD 2013.pptx

    8. **Xtension Framework**:此框架扩展了GPDB外部表的功能,使得可以在单个查询中结合HAWQ 数据和Hadoop数据。 ### Pivotal HD 的关键功能 - **安装与配置**:用户可以轻松地安装和配置Hadoop的各种组件和服务,...

Global site tag (gtag.js) - Google Analytics