Storm基本概念

博客分类：

storm

2.1 Storm基本概念在运行一个Storm任务之前，需要了解一些概念： Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs，而在Storm上运行的是拓扑（topology），这两者之间是非常不一样的。一个关键的区别是：一个MapReduce job最终会结束，而一个topolog

2014-12-05 16:49
浏览 551
评论(0)
分类:互联网

linux 日期转换

博客分类：

linux

date -d '1970-01-01 UTC 946684800 seconds' +"%Y-%m-%d %T %z" start_time=`date -d "1970-01-01 UTC $date_start seconds" +"%Y-%m-%d %H:%M:%S"`;

2014-05-23 18:27
浏览 764
评论(0)
分类:操作系统

crontab与环境变量

博客分类：

linux

2. crontab与环境变量不要假定cron知道所需要的特殊环境，它其实并不知道。所以你要保证在shelll脚本中提供所有必要的路径和环境变量，除了一些自动设置的全局变量。所以注意如下3点：1）脚本中涉及文件路径时写全局路径；2）脚本执行要用到java或其他环境变量时，通过source命令引入环境变量，如：cat start_cbp.sh#!/bin/shsource /etc/profile

2014-05-23 11:15
浏览 646
评论(0)
分类:操作系统

mysql小技巧

博客分类：

小技巧

order by null 用途是强制对查询结果禁用排序。通过explain检查查询语句时候，如果看到Extra列中有Using filesort，这是对性能有一定影响的，特别是使用了group by时，就算你没有显示的指定order by，mysql会默认按照分组字段进行排序。某些情况下是没有必要使用排序的，例如在处理表报数据的时候（把原始表数据统计后插入到一个用于报表查询的表），则完全可以可以使用order by null来取消排序。如： insert into reportTable(day, clicks, revenue) select day, count(*), sum( ...

2014-05-22 14:21
浏览 576
评论(0)
分类:编程语言

hive sql 优化

博客分类：

hadoop

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则： 1. 尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段 select ... from A join B on A.key = B.key where A.userid>10

2014-05-22 14:21
浏览 714
评论(0)
分类:编程语言

oracle 相关

博客分类：

oracle

找表 select * from all_tables where table_name like '%NGINX_LOG_REPORT%' =========任务运行=============== ---任务列表 select spend_time/60,t.* from SPEND_TIME t --where lower(t_name)=lower('P_TADU_CHANNEL_NEW') order by begin_time desc,end_time

2014-05-21 15:21
浏览 844
评论(0)
分类:数据库

hive查询相关

博客分类：

hadoop

一、嵌套查询统计数量去重问题描述：如果子查询中对统计的字段已经去重，外面一层就不能同时有distinct（目标统计字段）和group by操作，否则查询结果不是统计的数量而是统计的字段数据。如： select platform_id, count(distinct user_id) uv_count from ( select platform_id, user_id, sum(pv) pv from depot_user_browse where day = '20140201' and ( platform_id = 12 or p ...

2014-05-21 15:12
浏览 666
评论(0)
分类:编程语言

shell 时间处理

博客分类：

linux

start_dt="20130101"; end_dt="20131231"; for ((i=0;i<= $(($(date +%s -d "$end_dt") - $(date +%s -d "$start_dt")))/86400 |bc ;i++)) ;do report_day=$(date -d "$start_dt +$i day" +%Y%m%d) echo $report_day done if [ "$1" ! ...

2014-05-21 15:11
浏览 557
评论(0)
分类:编程语言

hadoo安装常见问题

博客分类：

hadoop

遇到问题以后先查看日志，以下是常见的错误情况及解决方法，希望对大家有所帮助。 1、启动hadoop时没有NameNode的可能原因：（1） NameNode没有格式化（2）环境变量配置错误（3） Ip和hostname绑定失败 2、地址占用报错：org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use

2014-05-21 15:10
浏览 770
评论(0)
分类:编程语言

防止误删文件无法恢复

博客分类：

linux

rm -rf 慎用命令敲得多了，常在河边走，难免会湿鞋 rm 特别是rm -rf之前，小心，三思，提前做好备份为了避免因为误操作而导致文件无法恢复的问题，特在hadoop集群的每台机器上添加了"回收站"机制。首先,在~下 .bashrc（或者.bash_profile）加入 mkdir -p /ty/.trash alias rm=trash alias r=trash alias rl='ls /ty/.trash'

2014-05-21 14:50
浏览 672
评论(0)
分类:操作系统

plsql相关

博客分类：

小工具的使用

plsql中 perferences 下的 user interface 下的editor 中的 autoreplace。在definition file中指定自己定义的文件的路径就可以了。 f = FROM s* = SELECT COUNT(*) FROM w = T WHERE st = SELECT T.*,T.ROWID FROM s = SELECT * FROM l = LIKE '%%' r = region = d = DELETE FROM

2011-12-02 16:43
浏览 787
评论(0)
分类:编程语言

windows-xp-home-to-professional

博客分类：

小技巧

XP Windows

http://www.mydigitallife.info/2008/06/13/convert-and-upgrade-windows-xp-home-to-professional-without-reinstalling/ 1 依次点击：开始->运行，输入regedit 2 找到 HKEY_LOCAL_MACHINE/SYSTEM/ControlSet00X/Control/ProductOptions, 注意：ControlSet00X 是数值最大的那一个。 3 删除ProductSuite 注册表键。 4 然后，创建一个新的DWORD 值，名称为Brand ...

2010-07-12 11:07
浏览 1022
评论(0)
分类:编程语言

oracle相关

博客分类：

小技巧

Oracle .net 配置管理 C C++

oracle 建立数据库1、怎么查看我总共建了几个库？答：一个叫install的文件夹下的portlist.ini2、开始菜单里的oracle文件夹的配置和移植工具Database Configuration Assistant 菜单3、建好了后再去看那个.ini文件，里面应该有你这个库的管理配� ...

2010-07-09 10:34
浏览 1033
评论(0)
分类:编程语言

Ue使用技巧

博客分类：

小技巧

Ctrl+b 选中括号内的 F3 查找下一个相同的选中的内容 ctrl+tab 多个文件切换 ctrl+g 到所在的行 ctrl+f2 建立标签，然后alt+f2切换 ctrl+e 删除整行 F7 插入系统时间

2010-06-30 17:56
浏览 1067
评论(0)
分类:编程语言

查看端口占用

博客分类：

小技巧

Windows C C++C#

假如我们需要确定谁占用了我们的9050端口 1、Windows平台在windows命令行窗口下执行： C:\>netstat -aon|findstr "9050" TCP 127.0.0.1:9050 0.0.0.0:0 LISTENING 2016 看到了吗，端口被进程号为2016的进程占用，继续执行下面命令： C:\>tasklist|findstr "2016" tor.exe 2016 Console ...

2010-05-25 16:21
浏览 991
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Storm基本概念

linux 日期转换

crontab与环境变量

mysql小技巧

hive sql 优化

oracle 相关

hive查询相关

shell 时间处理

hadoo安装常见问题

防止误删文件无法恢复

plsql相关

windows-xp-home-to-professional

oracle相关

Ue使用技巧

查看端口占用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>