`
heipark
  • 浏览: 2097549 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
如果ping命令返回如下错误,那主要的可能性就是系统的DNS设置有误。 bash-2.05# ping www.sina.com.cn ping: unknown host www.sina.com.cn 可以通过如下方法来解决,此方法已经在linux和solaris系统下通过验证。1) 确定设置了域名服务器没有的话, 建议设置Google的公共DNS服务, 它应该不会出问题的# cat /etc/resolv.conf-------------------------------------------------------------------nameserver 8.8. ...
1. 安装egit indigo版本在市场搜egit,kepler直接就自带了。3.7之前版本去官方使用old update url吧。    2. 创建和应用ssh钥匙 使用eclipse自带工具生成ssh key: Window->Preferences->General->Network->SSH2 点击“Key Management tab”页,点击“Generate RSA Key”,然后点击“Save Private key”,将key保存自定义目录。     点击Export Via SFTP,在弹出窗口填入“gi ...

Hadoop学习指南

安装配置 CDH4(hadoop2.0) 端口 CDH4 HA配置官方文档 浅谈flume log4j appender部署 开发 cdh maven仓库   --持续更新
  一、时区     1. 查看当前时区             date -R     2. 修改设置时区        方法(1)             tzselect        方法(2) 仅限于RedHat Linux 和 CentOS             timeconfig        方法(3) 适用于Debian             dpkg-reconfigure tzdata      3. 复制相应的时区文件,替换系统时区文件;或者创建链接文件             cp /usr/share/zoneinfo/$主时区/$次时 ...
  1.x 2.0 行级操作原子性 BATCH事务,即一个Batch原子性执行多个DML操作。当一个请求需要操作多个table的时候,它非常有用。 添加轻量级事务,避免race condition问题。 举例:两个人同时提交相同用户名的注册请求,确认not exist 后,同时提交注册请求。这种情况因为是相同的rowkey(用户名),所以cassandra会将后后提交的人信息会覆盖前者。cassandra通过paxos解决该问题。 BEGIN BATCH  INSERT INTO ...   UPDATE ....   INSERT  ...
hadoop-client是为了让开发者可以很方便的使用当前节点hadoop的jar包,ch4版本的hadoop将目录分为“/usr/lib/hadoop-hdfs”、“/usr/lib/hadoop-mapreduce”,“/usr/lib/hadoop-yarn”等多个目录,这样引用jar包也会比较麻烦。通过yum安装hadoop-client后会生成软链接:   MRv1:/usr/lib/hadoop/client-0.20 YARN:/usr/lib/hadoop/client 如果你的java应用需要引用这些系统jar包只需要下面的调用就可以了:   java -c ...
JDK6支持java -cp后面跟通配符'*',试了一下发现还是需要注意:   错误方式(Wrong way): java  -cp /data/apps/lib/*.jar com.chinacache.Main 或者 java  -cp /data/apps/ilb/ com.chinacache.Main   正确方式(right way): java -cp /data/apps/ilb/* com.chinacache.Main   低版本JDK(小于JDK6) java -cp $(echo /data/apps/ilb/*.jar | tr ' ' ':' ...
HA配置 安装Cloudera CDH4 官方文档配置,还算顺利,地址如下:   http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-High-Availability-Guide/CDH4-High-Availability-Guide.html   集群环境 我没有配置fencing和自动failover,试用了一下Quorum-based Storage和手动切换,基本配置如下: NameNode两台:nn1(active)、nn2(standby) Journ ...
一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用如下命令:   sudo -u hdfs hadoop dfsadmin -report   二、如果DN已经正常启动,则要hdfs-site.xml文件dfs.replication配置是否大于DN数量, 三、如果问题还没有解决,则要检查iptables(开放DN 50010和NN 8020端口)是否正常。    
    今天线上有台服务器时区错误,导致很多使用new Date的Java程序都出现时间错误。     关于时间的故事是这样的,此时此刻我们和美国人的时间戳都是一样的,都是从1970-1-1 0:0:0开始,只是因为我们的时区不同,所以时间的表现形式不一样。所以当时区出问题时,即使我们的时间是正确的使用Date对象的时候也会出问题。解决办法有两种: 方法一 java -Duser.timezone=GMT+8 <test_class>   方法二 SimpleDateFormat formatter = new SimpleDateFormat("yyyy-M ...
  A = LOAD 'input' using PigStorage(',','-tagsource'); B = foreach A generate $0;   PigStorage构造函数第一个参数是分隔符,第二个参数如果为“-tagsource”则会在A第一列放置文件名信息。   参考:http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/builtin/PigStorage.html  
 有个数据文件,按行读取的时候总是出错,明明一行读取出来确实两行,文件如下:     打开UltraEdit 16进程查看,得出原因:   第二行的http://后面出现了一个0D的16进制符号,这个符号是“\r”,即回车符的意思,程序处理遇到\r会认为换行,所以一行会变成两行。   vi下也可以看到不可见字符,输入命令“:set list”   --end  
启动cassandra时候,报如下错误: The stack size specified is too small, Specify at least 228k   打开文件“vi cassandra-env.sh”,修改如下行   JVM_OPTS="$JVM_OPTS -Xss230k" 改为 JVM_OPTS="$JVM_OPTS -Xss228k"   JDK7启动对xss参数有最小值要求,必须大于288才能启动JVM
  要求JDK7以上,JDK6不被支持    基于apache hadoop2.2稳定版   YARN(MR2) 推荐使用(具备生成环境使用条件),MR1和MR2同时被支持   HDFS快照( Snapshots)   集成Spark   Resource Manager HA  
flatten在英文的意思弄平整的意思,这个操作符在不同的场景有不同的功能。   1. flatten tuple flatten会把tuple内容打开,下面举例: -- A结构:(a, (b, c)) B = foreach A GENERATE $0, flatten($1) B返回结果(a,b,c)   2. flatten bag flatten会把bag内容打开,每个tuple是一行,即列转换为行   -- A结构:({(b,c),(d,e)}) B = foreach A generate flatten($0) B返回结果 (b,c) (d,e)     ...
Global site tag (gtag.js) - Google Analytics