- 浏览: 18382 次
- 性别:
- 来自: 北京
最新评论
-
明兜3号:
Cloudera Manager视频教程网盘地址:https: ...
离线搭建CDH5,ClouderaManager -
两个黄鹂鸣翠柳:
...
python也就这点事
文章列表
安装JDK(所有节点)省略
创建统一账号:useradd hadooppasswd hadoop
关闭防火墙service iptables stop
统一时间:date -s "2014-9-10 15:11:00"hwclock --systohc
service ntpd startchkconfig ntpd on
vi /etc/sysconfig/seliunx
SELINUX=disabled #修改成这样,需要重启生效。setenforce 0 #执行后不需要重启生效。
2.配置主机名v ...
1.随着分布式应用的不断深入,需要对集群管理逐步透明化。监控集群和作业状态;可以充分的利用ZK的独有特性,熟悉程度决定应用高度
2.Service端具有fast fail特性,非常健壮,无单点,不超过半数Server挂掉不会影响提供服务
...
1.衡量算法的标准:时间复杂度:大概程序执行的次数,而非执行的时间空间复杂度:算法执行过程中大概所占用的最大内存难易程度健壮性
2.int *p //p是个指针变量,int *表示该P变量只能存储int类型变量的地址
3.地址:内存单元的编号,内存是可以被cpu直接访问的,内存的编号是不能重复的,内存的基本划分单位是字节
CPU--地址线(可以确定对哪个地址进行操作)控制线(控制读和写)数据线(数据传输)
4.指针就是地址,地址就是指针。5.指针变量就是存放内存单元地址的变量6.指针的本质就是一个受限的非负整数
分类:1.基本类型的指针int * p//p是 ...
今天看了一下R语言,感觉挺难的因为没有统计学和数据的功底,看着函数有些吃力。学习的过程是痛苦的,还是坚持着吧~今天把自己的学习笔记贴上来,后续应该会继续更新此文章。
1.一旦某一变量服从正态分布,就可以 ...
spark单节点local安装:
1.解压包:
scala-2.10.4.tgz
scala-intellij-bin-0.38.437.zip
spark-0.9.1-bin-hadoop1.tgz
2.配置/etc/profile
3.直接输入scala如果进入scala界面表示安装成功
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:
名称
命令表达式
创建表
create '表名称', '列名称1','列名称2','列名称N'
添加记录
put '表名称', '行名称', '列名称:', '值'
查看记录
get '表名称', '行名称'
查看表中的记录总数
count '表名称'
删除记录
delete '表名' ,'行名称' , '列名称'
...
安装hadoop 和 hive我就不多说了,网上太多文章 自己看去
首先,在机器上打开hiveservice
不多说,直接上代码
package asia.wildfire.hive.service;
import java.sql.*;
import java.sql.Date;
import java.text.SimpleDateFormat;
import java.util.*;
/**
* User: liuxiaochen
* Date: 13-9-24
* Time: 下午5:47
* 修改描述
*/
public clas ...
1.解释性&编译性,面相对象,简单,高级语言,无需考虑诸如内存一类的底层可扩展以及可潜入性,免费开源,可移植性--各个系统。丰富的库。“胶水语言”
2.python源代码以py为扩展名,由python程序解释,不需要编译
3.python XXX.py不管他有没有执行权限都会执行chmod +x XXX.py赋权限, 执行:./XXX.py(必须写上文件的路径#!/usr/python)
4.字节代码:Python源文件经过编译后生产的扩展名为“pyc”的文件编译方法:import py_compile py_compile.compile("1.py&quo ...
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么ha ...
添加节点
1.修改host 和普通的datanode一样。添加namenode的ip
2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host
3.在新节点的机器上,启动服务
[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave-004 hadoop]# ./bin/hadoo ...
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时 ...
笔者所用的版本是hadoop-2.2.0
1、列出所有Hadoop Shell支持的命令 $ bin/hdfs fs -help
2、显示关于某个命令的详细信息 $ bin/hdfs dfs -help ls(查看ls命令的详细信息)
3、 格式化一个新的分布式文件系统: $ bin/hdfs namenode -format
4、 将zkstop.sh文件放入到hadoop集群中
要想掌握数据库的优化首先要知道数据库的事务性吧?这是最基础的!!!
(1) 原子性 ? 事务的原子性指的是,事务中包含的程序作为数据库的逻辑工作单位,它所做的对数据修改操作要么全部执行,要么完全不执行。这种特性称为原子性。
(2) 一致性? 事务的一致性指的是在一个事务执行之前和执行之后数据库都必须处于一致性状态。这种特性称为事务的一致性。假如数据库的状态满足所有的完整性约束,就说该数据库是一致的。
(3) 分离性 ?分离性指并发的事务是相互隔离的。即一个事务内部的操作及正在操作的数据必须封锁起来,不被其它企图进行修改的事务看到。
(4)持久性 ?持久性意味着当系统或介质发生故障时, ...
1.pstree显示所有的进程树
2.内部命令帮助:help echo
外部命令:ls --help
man ls 其中/-a表示要查找的参数。n键代表下一个查找的意思。shift+n代表上一个。
3.vi的时候/-a也是可以查找的 触类旁通的
4.man 1 2 3 4 5 6 7 8个帮助级别 ...
Storm
1. 信息流处理{Stream processing} Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 2. 连续计算{Continuous computation} Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitter上的热门话题发送到浏览器 ...