1、hadoop
官网:
https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用,去官网看一遍吧
查看.gz 的文件内容:
引用
无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件:hadoop fs -text /myfolder/part-r-00024.gz | tail
参见:
https://stackoverflow.com/questions/31968384/view-gzipped-file-content-in-hadoop
查看.bz2 的文件内容:
类似查看.gz的方法,只需将zcat换为bzcat, 或者将zmore换为bzmore即可
2、yarn
官网:
https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html
- kill任务: yarn application -kill application_1491058351375_633399
- 查看日志: yarn logs -applicationId application_1491058351375_633399 | less
3、spark启动命令
参见:
https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数 : JVM本身的内存:spark.yarn.executor.memoryOverhead
4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided, 从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置,并设置JVM参数为:
-Dspark.master=local[2] -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见:
https://spark.apache.org/docs/latest/configuration.html#application-properties
3、需要保证本地安装的scala版本与spark所需版本一致
对于spark1.6, 应安装scala2.10.x
对于spark2.x,应安装scala2.11.x
5、spark本地调试-方法2
1、到
https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz (或其他Pre-build版本)
2、解压到任意文件夹, IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹 (已经包含的hadoop、spark等程序)
完成以上3步后即可运行
4、(可选)解决找不到winutils.exe的问题
根据错误提示,下载和hadoop版本一致的winutils.exe
我是在
https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的,
下载后放到了spark_home/jars/bin/文件夹中, 并设置HADOOP_HOME环境变量指向spark_home/jars文件夹
6、文件查看
gz文件,文本文件:hadoop fs -text file_name_or_dir_name | head
parquet文件: hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载:https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0
- 大小: 47.5 KB
分享到:
相关推荐
### Hadoop2安装与常用Shell命令详解 #### Hadoop2安装步骤 在开始Hadoop2的安装之前,首先需要确保所有节点的操作系统版本为CentOS/Red Hat Linux 6.4_x64,并且每台服务器都已完成基本的系统配置。 ##### 系统...
《Hadoop技术内幕深入解析YARN架构设计与实现原理》这本书深入探讨了Hadoop生态系统中的核心组件YARN(Yet Another Resource Negotiator),它是Hadoop 2.x版本中的关键改进,旨在解决早期Hadoop MapReduce的资源...
根据提供的文档内容,本文将详细解析Hadoop-2.8.1与Zookeeper-3.4.6在高可用环境下的部署步骤与注意事项,重点包括版本兼容性、主机规划、目录规划以及常用的脚本与命令。 ### 版本兼容性 在搭建Hadoop集群时,...
3. **YARN(Yet Another Resource Negotiator)**:Hadoop的资源管理系统,负责调度集群中的计算资源,管理和协调MapReduce任务。 【Hadoop的学习路径】 1. **Hadoop day01.xmind**:可能包含了Hadoop的安装配置、...
本资料包“【大数据学习资料】大数据常用命令.zip”包含了一份Markdown格式的大数据常用命令文档(大数据常用命令.md)和一个PDF版本的相同内容(【大数据学习资料】大数据学习命令.pdf),旨在为学习者提供方便快捷...
-004.Ubuntu常用命令.mp4 -005.Ubuntu目录和权限.mp4 -006.Ubuntu软件包桌面程序以及增强工具.mp4 -007.Ubuntu本地软件源与ISO制作.mp4 -008.Ubuntu克隆与Mac生成-网络连接方式.mp4 -009.Hadoop在Ubuntu下安装JDK....
本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...
Hadoop 的核心组件包括 Hadoop Distributed File System(HDFS)、MapReduce 和 YARN。其中,HDFS 是 Hadoop 的分布式文件系统,用于存储和管理大规模数据。 HDFS 的 shell 命令是用户与 HDFS 交互的主要方式,通过...
在课程中,还会涉及到Yarn的常用命令,例如`yarn application -list`查看应用列表,`yarn node -list`查看节点状态等,这些都是日常管理和维护Hadoop集群时必要的操作。 通过学习本课程,学员将能够: 1. 理解Yarn...
较新版本的Hadoop2.x.y系列包括了YARN(Yet Another Resource Negotiator),这是一个资源管理平台,它改进了资源管理和作业调度的机制。老版本的Hadoop,如0.20或1.2.1版本,虽然在本教程中未详细涉及,但本教程的...
它包含了诸如设置HDFS(Hadoop Distributed File System)环境变量、管理HDFS文件权限、启动和停止HBase服务等常用功能。在Windows上使用Eclipse插件进行Hadoop开发时,通常需要将winutils.exe放置在%JAVA_HOME%\bin...
6. **启动Hadoop服务**:通过`start-dfs.cmd`和`start-yarn.cmd`命令启动Hadoop的DataNodes、NameNodes以及YARN的ResourceManagers和NodeManagers。 7. **验证安装**:使用`jps`命令查看是否所有服务都已启动,然后...
总结起来,`Hadoop生态圈常用软件打包rpm spec描述文件`是为了在Linux环境中高效管理和部署Hadoop相关组件,通过`spec`文件定制化安装过程,解决依赖问题,提供便捷的维护手段。了解并熟练使用`spec`文件对于Linux...
3. **SSH配置**:尽管Windows不常用SSH,但Hadoop的一些功能如YARN和HDFS的远程管理需要SSH支持。可以使用OpenSSH for Windows或者第三方工具如PuTTY。 4. **安全认证**:如果涉及到安全性,可能需要配置Kerberos以...
### 二、Linux常用命令及操作 #### 常用命令介绍 - **打开终端**:使用快捷键`Ctrl+Alt+T`快速打开终端。 - **创建用户**:使用`sudouseradd-mhadoop-s/bin/bash`命令创建名为`hadoop`的新用户,并指定默认shell。...
接下来是《Hadoop常用命令.docx》,这是一份实用的工具文档,列举了Hadoop生态系统中常用的命令行工具,如hdfs dfs、hadoop fs、hadoop jar等,这些命令对于日常操作Hadoop集群至关重要。通过学习这些命令,用户可以...
5. **启动和关闭Hadoop服务**:通过执行相应的命令,如`start-dfs.sh`和`start-yarn.sh`来启动Hadoop服务,使用`stop-dfs.sh`和`stop-yarn.sh`来停止服务。 6. **Hadoop命令行工具**:理解如何使用Hadoop的命令行...
【大数据技术大实验】是信息工程学院数据科学与大数据技术专业的一门实践课程,主要目的是让学生深入理解Hadoop的体系结构、掌握其部署方法及常用命令,并通过编写MapReduce程序来计算单词个数,以此提升学生的实际...
1. `bin`: 包含可执行脚本,如启动和停止Hadoop服务的命令。 2. `sbin`: 存放管理脚本,用于集群级别的操作,如启动和停止整个Hadoop集群。 3. `lib`: 包含Hadoop运行所需的库文件。 4. `conf`: 默认配置文件,用户...