`
superlxw1234
  • 浏览: 552329 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44553
社区版块
存档分类
最新评论

使用java读取gz压缩的hdfs文件

 
阅读更多

根据hdfs文件的后缀类型自动识别并解压:

 

		Path hdfsPath = new Path(args[0]);
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(hdfsPath.toUri(),conf); 
		CompressionCodecFactory factory = new CompressionCodecFactory(conf);
		CompressionCodec codec = factory.getCodec(hdfsPath);
	
		FSDataInputStream inputStream = fs.open(hdfsPath);
		BufferedReader reader = null;
		
		try {
			if (codec == null) {
				reader = new BufferedReader(new InputStreamReader(inputStream));
			} else {
				CompressionInputStream comInputStream = codec.createInputStream(inputStream);
				reader = new BufferedReader(new InputStreamReader(comInputStream));
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
 
分享到:
评论

相关推荐

    传输到hdfs数据,进行压缩

    `hadoop-lzo`是Hadoop与LZO集成的库,包含了Hadoop读写LZOP压缩文件所需的Java类。在Hadoop集群上部署`hadoop-lzo`库,确保所有节点都能访问到。通常,你可以在所有节点上执行以下步骤: 1. 将`hadoop-lzo`的jar包...

    云计算技术实验报告五Hadoop IO

    实验的具体目的是学习如何在Hadoop分布式文件系统(HDFS)上进行文件的读写与压缩的编程实现。具体任务是改进先前实验中的GetMerge程序,使其能够将多个云端文件压缩成一个文件,并下载到本地。 #### 实验要求 1. **...

    HadoopFileCompress.zip

    在`HadoopCompress.java`中,可能会实现或利用这个接口的一个子类,如`GzipCodec`,来处理gz压缩。同时,Hadoop的`org.apache.hadoop.mapreduce.lib.input.FileInputFormat`和`org.apache.hadoop.mapreduce.lib....

    hadoop分布式安装java与hadoop.docx

    将Hadoop的归档文件解压缩到你选择的目标路径。例如,如果你的Hadoop tarball位于根目录,可以使用以下命令解压到`/usr/local`: ``` sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local ``` 请根据实际情况...

    doris-0.12.tar.gz已编译

    在开源社区中,".tar.gz"是一种常见的文件打包格式,它是Linux和Unix系统中常用的归档工具tar与压缩工具gzip的结合,用于将多个文件或目录打包成一个文件,以便于存储和传输。解压这个文件,我们可以得到Doris的所有...

    Hadoop_HDFS安装和管理.pdf

    - **安装环境搭建**:以`hdfs`用户身份登录,在主目录下创建子目录`hdfsinstall`,并在此目录下解压缩`forlink-hadoop.tar.gz`文件。 - **配置文件准备**:创建配置目录`hadoop-config`,并将必要的配置文件复制到该...

    hadoop-2.6.5-win10x64-1809.tar.gz

    "能够使用java客户端操作HDFS"表明Hadoop提供了Java API,使得开发者可以编写程序来读取、写入和管理HDFS上的文件。而"开发工具有IDEA,Eclipse插件"意味着,对于使用IntelliJ IDEA或Eclipse作为集成开发环境(IDE)的...

    jdk-8u171-linux-x64.tar.gz.7z

    文件格式为".tar.gz",这是一种常见的Linux文件打包方式,它首先使用tar命令将多个文件或目录打包成一个单一的文件,然后使用gzip压缩工具进行压缩,以节省存储空间。此外,文件还经过了7-Zip软件的进一步压缩,".7z...

    snappy-1.1.9.tar.gz

    - 数据存储:例如Google Bigtable、Hadoop HDFS等分布式存储系统使用Snappy来提高数据读写速度。 - 数据处理:Apache Spark、Apache Hadoop MapReduce等大数据处理框架利用Snappy减少数据传输时间和内存占用。 - ...

    hadoop-2.7.7-native.tar.gz

    在`hadoop-2.7.7-native.tar.gz`中,Snappy的本地库实现了Java层无法直接使用的低级压缩和解压缩功能。通过集成Snappy,Hadoop可以快速地读取和写入Snappy压缩的数据,从而提高数据处理的效率。这对于MapReduce作业...

    search-1.0.0-cdh5.13.3.tar.gz

    在压缩包子文件的文件名称列表中提到了"Hive",Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)对存储在HDFS上的大量数据进行查询、分析和汇总。Hive将SQL查询...

    hadoop-2.6.0-cdh5.14.0.tar.gz for linux 支持snappy

    3. **配置调整**:启用Snappy压缩需要修改Hadoop的配置文件,如`hdfs-site.xml`和`mapred-site.xml`,设置相应的压缩选项。 4. **性能监控**:在实际运行中,应定期监控系统的性能,以确保Snappy的使用对整体性能有...

    hadoop-2.7.2.tar.gz

    在`hdfs-site.xml`中可以配置`dfs.blocksize`和`dfs.replication`参数以优化存储策略,而在`mapred-site.xml`中可以启用`mapreduce.map.output.compress`和`mapreduce.map.output.compress.codec`来使用Snappy压缩...

    apache-nutch-2.3.1-src.tar.gz

    8. **索引存储**:Nutch 可以将抓取的网页数据存储在各种后端,如 HDFS 或者本地文件系统,索引可以被 Elasticsearch 或者 Solr 等搜索引擎读取。 9. **爬虫调度**:Nutch 使用一个调度器(如 FairScheduler 或 ...

    hadoop-2.7.4.tar.gz

    ".tar.gz"是常见的压缩格式,由tar工具打包后通过gzip压缩,可以有效地减小文件体积方便传输和存储。 描述中提到的"hadoop-2.7.4-with-centos7.6.tar.gz"表明这是专门为CentOS 7.6操作系统编译的Hadoop 2.7.4版本。...

    hadoop-3.1.2.tar.gz

    8. **数据读写**:使用Hadoop提供的命令行工具或编程接口(如Hadoop API,Hadoop Streaming,或者通过Spark、Pig、Hive等高级工具)进行数据的读取、写入和处理。 9. **安全与管理**:Hadoop 3.1.2引入了更多安全...

    hadoop-3.1.1.tar.gz

    4. 跨语言支持:Hadoop 3.1.1引入了跨语言API,允许开发者使用Java以外的语言(如C++和Python)编写MapReduce任务,扩展了Hadoop的应用范围。 5. 容错与稳定性:Hadoop 3.1.1增强了故障检测和恢复机制,包括快速...

    hbase-1.7.0-bin.tar.gz

    在“HBase安装包”中,我们通常会得到一个名为“hbase-1.7.0-bin.tar.gz”的压缩文件。这个文件包含了运行HBase所需的所有核心组件和工具,包括服务器端程序、客户端API、配置文件以及一些示例代码。解压这个压缩包...

    hadoop-2.10.1.tar.gz

    在Hadoop中,使用Snappy可以显著提高数据读取速度,降低I/O负载。 5. Gzip和Bzip2:这两种压缩算法提供了更高程度的压缩率,但牺牲了速度。Gzip通常用于平衡压缩比和速度的需求,而Bzip2则适合在存储空间不是问题,...

    hbase-1.1.2-bin.tar.gz

    标题中的“hbase-1.1.2-bin.tar.gz”指的是HBase 1.1.2版本的二进制发行包,通常以压缩格式提供,方便用户下载并在Linux或Unix环境中安装使用。 HBase的设计灵感来源于Google的Bigtable论文,它在Hadoop之上构建,...

Global site tag (gtag.js) - Google Analytics