纯笔记,勿看
集群迁移
hadoop distcp -D mapreduce.job.queuename=rtb -D dfs.checksum.type=CRC32 hdfs://mycluster/hbase/data/default/table hdfs://ip161:8020/user/dirkzhang > report.log 2>&1 &
hadoop distcp hftp://nn.xxx.xx.com:50070/user/nlp/warehouse/t_m_user_key_action /user/nlp/warehouse/dw1
hadoop hive 分区建立
alter table xxxx drop partition (logday='20150909',hour='12');
ALTER TABLE xxxx ADD IF NOT EXISTS PARTITION (day_id='20150908', hour_id='23') location 'hdfs://mycluster/data/stg/emaruser/20150908/23';
hadoop第三方jar包,多个
conf.set("tmpjars", "json-simple-1.1.1.jar,json-lib-2.4-jdk15.jar,ezmorph-1.0.6.jar");
hbase添加节点
1.修改环境变量,/etc/hosts文件,改变系统线程数,文件数 2.所有应用上加/etc/hosts文件 3.修改配置,修改hdfs-site.xml,改成本地数据磁盘 4.修改所有机子上slaves,和regionservers
删除zk日志的频率和保留几个文件
#clean freques autopurge.purgeInterval=12 #clean size autopurge.snapRetainCount=12
tachyon 启动 format
如果不想每次启动Tachyon都挂载一次RamFS,可以先使用命令 bin/tachyon-mount.sh Mount workers 或 bin/tachyon-mount.sh SudoMount workers 挂载好所有RamFS,然后使用 bin/tachyon-start.sh all NoMount 命令启动Tachyon。 spark1.5对应版本tachyon0.7.1 bin/tachyon format bin/tachyon-mount.sh SudoMount workers bin/tachyon-start.sh all NoMount bin/tachyon-stop.sh
linux jps显示不了进程
以下文件权限有误
/tmp/hsperfdata_userName
hadoop查看文件大小
hadoop fs -du -h
hive在建表的时候有时出现
Display all XXX possibilities? (y or n)
是因为tab键太多造成的
hbase创建表
create 'hotdog_adr_base', { NAME => 'cf', COMPRESSION => 'GZ'},{SPLITS => ['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z',
'a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']}
shell判断是否有参数
if [ $# -lt 2 ] ; then
echo "期待2个参数"
exit 1
fi
echo $1
echo $2
mysql命令
mysql -N -hl-an7.wap.cn6.qunar.com -P3306 -umobstat -p'xH!dmobstatsa!oSX' -e "
use mobiledcs_ad;
load data local infile '${BASE_PATH}/xxx_${logdate}.tmp' into table datatable(id,name,count)
" || exit
linux统计行数(上海出现多少次)
cat test2.txt | grep '上海' | wc -l
hhh出现行数
grep -c 'hhh' test.txt
linux处理文件列awk
awk '{print $6}' test.txt
awk求和awk '{total+=$6}END{print total}' test.txt
awk分组求和(按照$1分组,$6求和)awk '{a[$1]+=$6}END{for(i in a)print(i,a[i])}' test.txt
linux测试本地机子是否可以连接 ip port
nc -z -v 192.168.44.37 80
shell换行
echo -e '\n'
linux 查看域名ip
nslookup l-rtools1.ops.cn8
hbase 执行命令
sudo -u hadoop echo "scan 'hbase:meta',{LIMIT=>1}"| hbase shell &> dump.txt
python ide
pycrust
linux 进程
ps -ef | grep report
linux 杀死一批相同类型的进程(grep -v grep是除了grep进程,$2就是pid)
kill -9 $(ps -ef|grep -E 'report|runrp'|grep -v grep|awk '{print $2}')
ps -ef|grep rolling-restart.sh | grep -v "grep" | awk -F " " '{print $2}' | xargs kill -9
hadoop 指定集群拿数据
sudo -uxxxxxx hadoop fs -fs ip:8020 -ls
shell在线编译sed
sed -i '3 s/user/dirk/' td.txt 修改第三行 将user改为dirk ( -i是在当前文档上修改 )
sed -n '3p' td.txt 打印第三行
获取第三行,第三列内容,用/隔开(cut 和 awk都可以获取列)
sed -n '3p' td.txt | cut -d "/" -f3
sed -n '3p' td.txt | awk -F "/" '{print$3}'
awk -F "/" '{if(NR==3) print $3}' td.txt
hbase shell建立分区表
create 'tb_splits', {NAME => 'cf', VERSIONS=> 3},{SPLITS => ['a','b','c']}
hive shell dll
alter table dirktest add columns(nc string); 增加列
alter table dirktest replace columns(aa string,bb string,order_count bigint); 删除列
linux shell
获取父Pid 为$PPID
写入文件
_pp=$PPID
echo $_pp >> /test/dirk.txt
hive shell
- MSCK REPAIR TABLE table_name;
该命令会把没添加进partition的数据,都增加对应的partition。同步源数据信息metadata。
linux 查看文件夹大小
du -h --max-depth=1 home/data
hadoop添加classpath
HADOOP_CLASSPATH=/home/hadoop-cdh/app/hbase-0.98.1-cdh5.1.0/lib/* hadoop jar /home/hadoop-cdh/imgDownload/imgHbase.jar com.emar.nbt.hbase.mr.ImgDownloadTuanMR testProduct
linux shell 查看socket数
socket上线
ulimit -n
socket使用
cat /proc/net/sockstat
linux 线程启动时间:
ps axo pid,ppid,comm,pmem,lstart | grep 4740
linux shell赋值
#if HBASE_HOME not empty,use HBASE_HOME,else use later one
#HBASE_HOME="${HBASE_HOME:-/home/hadoop-cdh/app/hbase-0.98.1-cdh5.1.0}"
mysql shell
授权 把mysqldb库的查询和更新权限赋给hadoopuser,hadoopuser的密码是hadooppwd
grant select,update on mysqldb.* to hadoopuser@localhost identified by 'hadooppwd';
grant all on testdb.* to common_user@'%'
linux中远程连接(如SSH)出现someone could be eavesdropping on you right now的解决办法
今天用SSH连接我的远程主机,出现了以下错误: IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! Someone could be eavesdropping on you right now (man-in-the-middle attack)! 网上查了一下,用 rm -rf .ssh/known_hosts 删除主机列表就行了。
观察进行gc情况
jstat -gc pid
jstat -gcutil pid 1000
zk命令
sh bin/zkServer.sh start
sh bin/zkServer.sh status
sh bin/zkServer.sh stop
sh bin/zkServer.sh restart
sh bin/zkCli.sh -server hostxxx:2181
sh bin/zkServer.sh status
-------------------------------------
hbase balance
sh $HADOOP_HOME/bin/start-balancer.sh –t 10%
linux启动时间
date -d "$(awk -F. '{print $1}' /proc/uptime) second ago" +"%Y-%m-%d %H:%M:%S"
who -b
dns文件
shell if判断是否为空
para1= if [ ! -n $para1 ]; then echo "IS NULL" else echo "NOT NULL" fi
相关推荐
- **HBase Shell**:通过`hbaseshell`进入HBase的交互式Shell,可以执行创建表、查询数据等操作。 综上所述,完成Hadoop、HBase和Hive的伪分布安装涉及多个步骤,包括软件包的安装、环境变量的设置、配置文件的编辑...
### hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结 #### 一、Hadoop2.2的安装 **问题导读:** 1. Hadoop的安装需要安装哪些软件? 2. Hadoop与HBase整合需要注意哪些问题? 3. Hive与HBase的...
* HBase Shell:HBase 的命令行工具,最简单的接口,适合 HBase 管理使用。 * Thrift Gateway:利用 Thrift 序列化技术,支持 C++、PHP、Python 等多种语言,适合其他异构系统在线访问 HBase 表数据。 * REST ...
7. **强大的访问接口**:包括Java API、HBase Shell、Thrift Gateway、REST Gateway、Pig和Hive等,覆盖了多种编程语言和场景需求。 **HBase数据模型** HBase的数据模型由Table、Row Key、Timestamp和Column ...
Client提供了多种访问接口,包括Java API、Shell命令、RESTful API等,方便用户与HBase交互。Zookeeper是集群的协调者,负责元数据管理、选举HMaster以及监控HRegionServer的状态。HMaster负责表的元数据管理、区域...
HBase,作为Hadoop生态系统中的分布式列式数据库,是为处理大规模数据而设计的。本章节将深入探讨HBase的体系架构、数据模型以及其实现方式,帮助读者理解其核心概念和应用场景。 1. **HBase体系架构** HBase的...
这些操作可能通过HBase的Java API或者HBase Shell来完成。 7. **数据流处理**:可能使用Hadoop的其他工具,如Pig或Hive,来进行复杂的数据分析和报表生成。这些工具简化了对Hadoop集群的数据操作,使非程序员也能...
从提供的文件信息中,我们可以总结出关于Hadoop、HBase和Hive集成安装的知识点,涉及环境配置、版本兼容性、文件权限、通信机制等多个方面。 首先,Hadoop2.2的安装需要配置SSH无密码互通,安装JDK以及编写Shell...
Hive 是一个基于 Hadoop 的数据仓库工具,而 HBase 是一个基于 Hadoop 的 NoSQL 数据库。它们都是大数据处理的重要组件。在数据处理过程中,经常需要将数据从 Hive 导入到 HBase 中。本文将详细介绍 Hive 数据导入 ...
Hadoop Hive 是一个基于 ...通过以上步骤,你已经成功入门了Hadoop Hive,可以进一步学习Hive的数据类型、函数、分区、桶等高级特性,以及如何与其他Hadoop组件如HBase、Spark等集成,以实现更高效的数据处理和分析。
2. HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用 3. Thrift Gateway:利用Thrift序列化技术,支持C++、PHP、Python等多种语言,适合其他异构系统在线访问HBase表数据 4. REST Gateway:支持...
例如,Hadoop 的数据块大小设置、Zookeeper 的会话超时机制、HBase 的 Region 分裂、Hive 的分区表设计、Spark 的容错机制、Kafka 的生产者消费者模型、Flink 的状态持久化和ClickHouse 的索引策略等都是常见的面试...
6. **Hive**:虽然早期版本不直接支持HBase,但在后续版本(如0.7.0)中,Hive可以通过类似SQL的语言来访问HBase。 HBase的数据模型包括Table、Column Family、Row Key和Timestamp: - **Row Key**:作为表的主键...
在实际操作中,用户还需要了解如何使用Hadoop的命令行工具进行数据操作,如hadoop fs命令用于与HDFS交互,hbase shell用于与HBase数据库交互,hive命令行则用于执行HQL(Hive SQL)查询。此外,熟悉YARN(Yet ...
同时,HBase与Hive、Pig等其他Hadoop生态工具的协同工作也是数据分析的重要环节。HBase Shell是进行日常管理操作的命令行工具,熟悉其命令对于日常运维至关重要。 在精通阶段,你需要掌握如何进行性能调优,包括...
前 言 大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南 ...六、HBase 简介 系统架构及数据结构 基本环境搭建 集群环境搭建 常用 Shell 命令 Java API 过滤器详解 可显示字数有限,详细内容请看资源。
7. **HBase与Hadoop的集成**:HBase可以与Hadoop的其他组件(如Hive、Pig等)无缝集成,进行复杂的数据分析和处理。 学习这个课程,你将了解到如何规划和设计HBase表结构,如何进行数据建模以适应HBase的特性,以及...