使用java读取gz压缩的hdfs文件 - 博客搬家至 lxw1234.com - ITeye博客

`

superlxw1234

浏览: 554169 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: Hive入门
浏览量：44790

文章分类

社区版块

存档分类

最新评论

freeluotao： public void readFields(D ...
MapReduce直接连接Mysql获取数据
passionke：在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据
annmi_cai：好好学习，天天向上！
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling
annmi_cai：好好学习，天天向上！
[一起学Hive]之十六-Hive的WEB页面接口-HWI
annmi_cai：好好学习，天天向上！
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

使用java读取gz压缩的hdfs文件

博客分类：

hadoop

阅读更多

根据hdfs文件的后缀类型自动识别并解压：

		Path hdfsPath = new Path(args[0]);
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(hdfsPath.toUri(),conf); 
		CompressionCodecFactory factory = new CompressionCodecFactory(conf);
		CompressionCodec codec = factory.getCodec(hdfsPath);
	
		FSDataInputStream inputStream = fs.open(hdfsPath);
		BufferedReader reader = null;
		
		try {
			if (codec == null) {
				reader = new BufferedReader(new InputStreamReader(inputStream));
			} else {
				CompressionInputStream comInputStream = codec.createInputStream(inputStream);
				reader = new BufferedReader(new InputStreamReader(comInputStream));
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

分享到：

使用java插入oracle中数据类型为clob的字段 | Hadoop启动脚本执行流程

2012-04-18 17:17
浏览 4878
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

传输到hdfs数据，进行压缩: `hadoop-lzo`是Hadoop与LZO集成的库，包含了Hadoop读写LZOP压缩文件所需的Java类。在Hadoop集群上部署`hadoop-lzo`库，确保所有节点都能访问到。通常，你可以在所有节点上执行以下步骤： 1. 将`hadoop-lzo`的jar包...

云计算技术实验报告五Hadoop IO: 实验的具体目的是学习如何在Hadoop分布式文件系统(HDFS)上进行文件的读写与压缩的编程实现。具体任务是改进先前实验中的GetMerge程序，使其能够将多个云端文件压缩成一个文件，并下载到本地。 #### 实验要求 1. **...

HadoopFileCompress.zip: 在`HadoopCompress.java`中，可能会实现或利用这个接口的一个子类，如`GzipCodec`，来处理gz压缩。同时，Hadoop的`org.apache.hadoop.mapreduce.lib.input.FileInputFormat`和`org.apache.hadoop.mapreduce.lib....

hadoop分布式安装java与hadoop.docx: 将Hadoop的归档文件解压缩到你选择的目标路径。例如，如果你的Hadoop tarball位于根目录，可以使用以下命令解压到`/usr/local`： ``` sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local ``` 请根据实际情况...

doris-0.12.tar.gz已编译: 在开源社区中，".tar.gz"是一种常见的文件打包格式，它是Linux和Unix系统中常用的归档工具tar与压缩工具gzip的结合，用于将多个文件或目录打包成一个文件，以便于存储和传输。解压这个文件，我们可以得到Doris的所有...

Hadoop_HDFS安装和管理.pdf: - **安装环境搭建**：以`hdfs`用户身份登录，在主目录下创建子目录`hdfsinstall`，并在此目录下解压缩`forlink-hadoop.tar.gz`文件。 - **配置文件准备**：创建配置目录`hadoop-config`，并将必要的配置文件复制到该...

hadoop-2.6.5-win10x64-1809.tar.gz: "能够使用java客户端操作HDFS"表明Hadoop提供了Java API，使得开发者可以编写程序来读取、写入和管理HDFS上的文件。而"开发工具有IDEA,Eclipse插件"意味着，对于使用IntelliJ IDEA或Eclipse作为集成开发环境(IDE)的...

jdk-8u171-linux-x64.tar.gz.7z: 文件格式为".tar.gz"，这是一种常见的Linux文件打包方式，它首先使用tar命令将多个文件或目录打包成一个单一的文件，然后使用gzip压缩工具进行压缩，以节省存储空间。此外，文件还经过了7-Zip软件的进一步压缩，".7z...

snappy-1.1.9.tar.gz: - 数据存储：例如Google Bigtable、Hadoop HDFS等分布式存储系统使用Snappy来提高数据读写速度。 - 数据处理：Apache Spark、Apache Hadoop MapReduce等大数据处理框架利用Snappy减少数据传输时间和内存占用。 - ...

hadoop-2.7.7-native.tar.gz: 在`hadoop-2.7.7-native.tar.gz`中，Snappy的本地库实现了Java层无法直接使用的低级压缩和解压缩功能。通过集成Snappy，Hadoop可以快速地读取和写入Snappy压缩的数据，从而提高数据处理的效率。这对于MapReduce作业...

search-1.0.0-cdh5.13.3.tar.gz: 在压缩包子文件的文件名称列表中提到了"Hive"，Hive是Apache Hadoop生态系统中的一个数据仓库工具，它允许用户使用SQL（HQL，Hive Query Language）对存储在HDFS上的大量数据进行查询、分析和汇总。Hive将SQL查询...

hadoop-2.6.0-cdh5.14.0.tar.gz for linux 支持snappy: 3. **配置调整**：启用Snappy压缩需要修改Hadoop的配置文件，如`hdfs-site.xml`和`mapred-site.xml`，设置相应的压缩选项。 4. **性能监控**：在实际运行中，应定期监控系统的性能，以确保Snappy的使用对整体性能有...

hadoop-2.7.2.tar.gz: 在`hdfs-site.xml`中可以配置`dfs.blocksize`和`dfs.replication`参数以优化存储策略，而在`mapred-site.xml`中可以启用`mapreduce.map.output.compress`和`mapreduce.map.output.compress.codec`来使用Snappy压缩...

apache-nutch-2.3.1-src.tar.gz: 8. **索引存储**：Nutch 可以将抓取的网页数据存储在各种后端，如 HDFS 或者本地文件系统，索引可以被 Elasticsearch 或者 Solr 等搜索引擎读取。 9. **爬虫调度**：Nutch 使用一个调度器（如 FairScheduler 或 ...

hadoop-2.7.4.tar.gz: ".tar.gz"是常见的压缩格式，由tar工具打包后通过gzip压缩，可以有效地减小文件体积方便传输和存储。描述中提到的"hadoop-2.7.4-with-centos7.6.tar.gz"表明这是专门为CentOS 7.6操作系统编译的Hadoop 2.7.4版本。...

hadoop-3.1.2.tar.gz: 8. **数据读写**：使用Hadoop提供的命令行工具或编程接口（如Hadoop API，Hadoop Streaming，或者通过Spark、Pig、Hive等高级工具）进行数据的读取、写入和处理。 9. **安全与管理**：Hadoop 3.1.2引入了更多安全...

hadoop-3.1.1.tar.gz: 4. 跨语言支持：Hadoop 3.1.1引入了跨语言API，允许开发者使用Java以外的语言（如C++和Python）编写MapReduce任务，扩展了Hadoop的应用范围。 5. 容错与稳定性：Hadoop 3.1.1增强了故障检测和恢复机制，包括快速...

hbase-1.7.0-bin.tar.gz: 在“HBase安装包”中，我们通常会得到一个名为“hbase-1.7.0-bin.tar.gz”的压缩文件。这个文件包含了运行HBase所需的所有核心组件和工具，包括服务器端程序、客户端API、配置文件以及一些示例代码。解压这个压缩包...

hadoop-2.10.1.tar.gz: 在Hadoop中，使用Snappy可以显著提高数据读取速度，降低I/O负载。 5. Gzip和Bzip2：这两种压缩算法提供了更高程度的压缩率，但牺牲了速度。Gzip通常用于平衡压缩比和速度的需求，而Bzip2则适合在存储空间不是问题，...

hbase-1.1.2-bin.tar.gz: 标题中的“hbase-1.1.2-bin.tar.gz”指的是HBase 1.1.2版本的二进制发行包，通常以压缩格式提供，方便用户下载并在Linux或Unix环境中安装使用。 HBase的设计灵感来源于Google的Bigtable论文，它在Hadoop之上构建，...

Global site tag (gtag.js) - Google Analytics