hadoop、yarn常用命令

cherishLC

浏览: 700317 次
性别:
来自: 北京

最近访客更多访客>>

jaybril

duanyilinelf

q343724746

半夏浮生

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

spark

1、hadoop
官网：https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html
hadoop fs 下的命令都比较常用，去官网看一遍吧

查看.gz 的文件内容：

引用

无需解压整个文件： hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20
或者 hadoop fs -cat /hdfs_location/part-00000.gz | zmore
需要解压整个文件：hadoop fs -text /myfolder/part-r-00024.gz | tail

参见：https://stackoverflow.com/questions/31968384/view-gzipped-file-content-in-hadoop

查看.bz2 的文件内容：
类似查看.gz的方法，只需将zcat换为bzcat，或者将zmore换为bzmore即可

2、yarn
官网：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html

kill任务： yarn application -kill application_1491058351375_633399
查看日志： yarn logs -applicationId application_1491058351375_633399 | less

3、spark启动命令
参见：https://spark.apache.org/docs/1.6.1/running-on-yarn.html
注意一个参数： JVM本身的内存：spark.yarn.executor.memoryOverhead

4、spark本地调试
1、maven工程的pom.xml中将所有的包设置为 compile 而非 provided，从而将spark打包进jar中
2、IntelliJIDEA中的Run->Edit Configuration中新增如下配置，并设置JVM参数为：
-Dspark.master=local[2] -Dspark.driver.memory=2g -Dspark.app.name=SparkPi
spark配置请参见：https://spark.apache.org/docs/latest/configuration.html#application-properties

3、需要保证本地安装的scala版本与spark所需版本一致
对于spark1.6，应安装scala2.10.x
对于spark2.x，应安装scala2.11.x

5、spark本地调试-方法2
1、到https://spark.apache.org/downloads.html下载spark-2.2.1-bin-hadoop2.7.tgz （或其他Pre-build版本）
2、解压到任意文件夹， IDEA中新建scala工程
3、IDEA中File -> Project Structure -> Modules ->Dependencies 中添加刚才解压的路径中的 jars文件夹（已经包含的hadoop、spark等程序）
完成以上3步后即可运行
4、（可选）解决找不到winutils.exe的问题
根据错误提示，下载和hadoop版本一致的winutils.exe
我是在https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin 下载的，
下载后放到了spark_home/jars/bin/文件夹中，并设置HADOOP_HOME环境变量指向spark_home/jars文件夹

6、文件查看

gz文件，文本文件：hadoop fs -text file_name_or_dir_name | head

parquet文件： hadoop jar parquet-tools-1.9.0.jar head -n10 file_name_or_dir_name
parquet-tools-1.9.0.jar 下载：https://mvnrepository.com/artifact/org.apache.parquet/parquet-tools/1.9.0