`
文章列表
原因是dns没有配置,解决办法 加入dns服务器地址,比如: vi /etc/resolv.conf  nameserver 202.96.134.133 nameserver 8.8.8.8

hadoop命令

hadoop fsck /wordcount -files -blocks -locations   查看一个文件在hdfs上的方便情况  

Hive优化

    博客分类:
  • hive
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式(小任务):需要满足以下条件:  1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)  2.job的map数必须小于参数:hive.exec.mode.local.a ...
现象:重启redis时没有用root用户,结果dump.rdb文件停止更新,bgsave命令报错(error) ERR     原因:1.dump.rdb文件所在的文件夹权限没有开通,导致dump.rdb文件停止更新,此时修改redis数据时会报错,原因是默认配置 stop-writes-on-bgsave-error yes,当bgsave出错时数据将不能修改redis,如下操作后可以更新数据: config set stop-writes-on-bgsave-error no ,dump.rdb文件恢复更新。2.当redis的内存占用比较大时,在上述操作后dump.rdb文件仍然停止 ...
netstat -tunpl     netstat -tunpl | grep 6379    
原因是dns没有配置,解决办法 加入dns服务器地址,比如: vi /etc/resolv.conf  nameserver 202.96.134.133 nameserver 8.8.8.8  

创建表空间

/*分为四步 */ /*第1步:创建临时表空间  */ create temporary tablespace user_temp   tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf'  size 50m   autoextend on   next 50m maxsize 20480m   extent management local;     /*第2步:创建数据表空间  */ create tablespace user_data   logging   datafile 'D:\oracle\oradata ...

oracle 命令

可通过“lsnrctl status”命令查看监听启动情况, “lsnrctl start”(lsnrctl stop)可开启或关闭监听, 命令“netca”可启动Net Configuration Assistant,“ dbca”可启动Database Configuration Assistant。 

pig学习笔记

    博客分类:
  • pig
                                                   Hadoop Pig学习笔记(一)                                                         Pig简介这节总结Pig语言的方方面面。Pig是一种探索大规 ...
Apache Pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。 本文基于以下环境: pig 0.8.1文章来源:http://www.codelast.com/(1)CROSS操作 由于求交叉积可能会导致结果数据量暴增,因此,CROSS操作是一个“昂贵”的操作,可能会耗费Hadoop集群较多的资源,使用的时候需要评估一下数据量的大小。(2)JOIN操作的顺序 如教程《Apache Pig中文教程(进阶)》中的第(6)条所写,当JOIN的各数 ...
本文包含Apache Pig的一些进阶技巧及用法小结。如要学习基础教程,请查看我写的【其他几篇文章】。 本文的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解,此外,作者还在不断地添加本文的内容,希望能帮助一部分人。 Apache Pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。 本文基于以下环境: pig 0.8.1文章来源:http ...
本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解,此外,作者还在不断地添加本文的内容,希望能帮助一部分人。 要查看Pig系列教程,请点击【这里】。 Apache pig是 用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程 序的难度要小N倍,实现同样的效果的代码量也小N倍。Twitter就大量使用pig来处理海量数据——有兴趣的,可 ...
本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学 ...
http://blog.sina.com.cn/liujiannan2010 pig教程: http://www.codelast.com/?p=4550  
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.block.size)) totalSize是一个JOB的所有map总的输入大小,即
Global site tag (gtag.js) - Google Analytics