linux如何复制用户信息到另一台机器

博客分类：

linux&shell

1. 复制3个文件：/etc/passwd，/etc/group，/etc/shadow 2. 为各个用户创建home目录 3.复制用户home目录下的.bashrc .bash_profile

2012-11-22 17:40
浏览 2079
评论(0)
分类:操作系统

hbase错误 ZooKeeperConnectionException

博客分类：

hadoop

用hbase的rest服务给业务方提供web访问接口，经常会遇到服务不可用的情况，查看日志，发现以下错误： 2012-11-08 06:10:37,447 INFO org.apache.zookeeper.ClientCnxn: Opening socket connection to server hd0149-sw36.dc.sh-wgq.sdo.com/10.133.10.191: 2181 2012-11-08 06:10:37,447 WARN org.mortbay.log: /fh_spread_mes/ZTVzZmJ1cHNiYW90dWk=/: org.apa ...

2012-11-08 09:12
浏览 3740
评论(0)
分类:编程语言

【收藏】hadoop hdfs命令

博客分类：

hadoop

hdfs命令

cat 使用方法：hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。示例： hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 hadoop fs -cat file:///file3 /user/hadoop/file4 返回值：成功返回0，失败返回-1。 chgrp 使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …] 改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者 ...

2012-11-06 09:37
浏览 1505
评论(0)
分类:互联网

数据分析和数据挖掘的区别

博客分类：

数据仓库

数据分析数据挖掘

有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里，觉得他们做的事情都差不多，我亦如此！经过这几年工作中和他们的合作和学习，大概清楚了他们的区别，今天看到一篇文章，系统的解释了下这两者的区别：数据分析，是对数据的一种操作手段。或者算法。目标是针对先验的约束，对数据进行整理，筛选，加工。由此得到信息。数据挖掘，是对数据分析手段后的信息，进行价值化的分析。而数据分析和数据挖掘，又是甚至是递归的。就是数据分析的结果是信息，这些信息作为数据，由去数据挖掘。而数据挖掘，又使用了数据分析的手段。周而复始。。这里再细化说一下。数据分析和数据挖掘的最大区 ...

2012-10-30 10:45
浏览 2586
评论(0)
分类:互联网

发布了一篇博客，很快就被爬到其他网站了。。

博客分类：

其他

爬虫

我的博客： http://superlxw1234.iteye.com/admin/blogs/1703546 被爬的： http://www.uplook.cn/index-Index-show-view166417.html 速度很快啊。。

2012-10-23 16:15
浏览 1162
评论(0)
分类:互联网

hive并行执行job

博客分类：

hive

hive 并行job parallel

用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.n ...

2012-10-23 15:00
浏览 8206
评论(0)
分类:互联网

hive本地mr

博客分类：

hive
hadoop

hive local mr

如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如： hive> select 1 from dual; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there's no reduce operator Starting Job = job_201208151631_2040444, Tracking URL = http://jt.dc.sh-wgq.sdo.com:50030/j ...

2012-10-23 11:03
浏览 5587
评论(0)
分类:互联网

hive动态分区遇到的一个错误

博客分类：

hive

hive 动态分区

原SQL： insert overwrite table in_yuncheng_tbshelf partition (pt) select userid, bookid, bookname, createts, rpid, addts, updatets, isdel, rcid, category_type, wapbookmarks, addmarkts, readingchapterid, readpercentage, readingts, substring(addts,0,10) as pt from search_product.yuncheng_tbshelf ...

2012-09-13 16:02
浏览 4474
评论(0)
分类:互联网

数据仓库之 ETL漫谈

博客分类：

数据仓库

数据仓库 ETL

ETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为：数据源-->ODS(操作型数据存储)-->DW-->DM(data mart) ETL贯穿其各个环节。一、数据抽取：可以理解为是把源数据的数据抽取到ODS或者DW中。 1. 源数据类型：关系型数据库，如Oracle,Mysql,Sqlserver等; 文本文件，如用户浏览网站产生的日志文件，业务系统以文件形式提供的数据等； ...

2012-08-29 16:56
浏览 13670
评论(6)
分类:互联网

java RSA加解密的udf函数

博客分类：

java
hive

hive rsa java

KeyRSA.java，生成密钥对，上传到hdfs add jar hdfs://nn.dc.sh-wgq.sdo.com/group/p_sdo_data/udf/RSA.jar; CREATE TEMPORARY FUNCTION rsa as 'com.sdo.hive.udf.RSAUdf'; select rsa('13855667788','encode') from lxw_t1 limit 1; 67C267F193E498D3C227479FEC571787EA4141869C56CF024C462572448FCF3EC66A1AF3F5EB2F2FD ...

2012-08-22 16:49
浏览 2498
评论(0)
分类:互联网

hive匹配全中文字段

博客分类：

hive

hive 匹配中文

用java中匹配中文的正则即可： name rlike '^[\\u4e00-\\u9fa5]+$'

2012-08-06 16:30
浏览 8320
评论(0)
分类:互联网

hive中使用sql window函数 LAG/LEAD/FIRST/LAST

博客分类：

hive

hive window function

https://github.com/hbutani/SQLWindowing 经过测试，我使用的hadoop版本： hadoop-0.20.2-cdh3u3 hive版本：0.7.0，报错： ./hive --service windowingCli Hive history file=/tmp/p_sdo_data_etl/hive_job_log_p_sdo_data_etl_201207191020_1015292447.txt Exception in thread "main" groovy.lang.MissingMethodExce ...

2012-07-19 10:42
浏览 3857
评论(3)
分类:互联网

base64加密解密的hive udf函数

博客分类：

hadoop
hive

hadoop hive udf base64

依赖hadoop,hive相关包，源码见附件。 add jar hdfs://nn.dc.sh-wgq/group/p_sdo_data/p_sdo_data_etl/udf/base64.jar; CREATE TEMPORARY FUNCTION encodebase64 AS 'com.sdo.hive.udf.EncodeBase64'; CREATE TEMPORARY FUNCTION decodebase64 AS 'com.sdo.hive.udf.DecodeBase64'; hive> select encodebase64('liuxiaowen ...

2012-07-12 12:28
浏览 7604
评论(0)
分类:互联网

使用kerberos的hadoop选择java版本需注意

博客分类：

hadoop

hadoop kerberos

使用kerberos的hadoop集群，如果在kerberos配置文件正确，但访问hdfs报错： WARN ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] Bad connectio ...

2012-07-12 09:51
浏览 6772
评论(0)
分类:互联网

【转】Jobtracker重启Job recovery过程分析

博客分类：

hadoop

hadoop jobtracker recover

Jobtracker重启Job recovery过程分析 1. Job Recovery的有关配置项配置项默认值含义 mapred.jobtracker.restart.recover false true时JT重启之前运行的job可以在jobtracker restart之后恢复，false则需要重新运行� ...

2012-07-10 16:02
浏览 1816
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

linux如何复制用户信息到另一台机器

hbase错误 ZooKeeperConnectionException

【收藏】hadoop hdfs命令

数据分析和数据挖掘的区别

发布了一篇博客，很快就被爬到其他网站了。。

hive并行执行job

hive本地mr

hive动态分区遇到的一个错误

数据仓库之 ETL漫谈

java RSA加解密的udf函数

hive匹配全中文字段

hive中使用sql window函数 LAG/LEAD/FIRST/LAST

base64加密解密的hive udf函数

使用kerberos的hadoop选择java版本需注意

【转】Jobtracker重启Job recovery过程分析

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>