Hadoop集群上使用Lzo压缩

博客分类：

云计算

转自：http://www.tech126.com/hadoop-lzo/ 自从Hadoop集群搭建以来，我们一直使用的是Gzip进行压缩当时，我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试，最终执行速度基本差不多而且Hadoop原生支持Gzip解压，所以，当时就直接采用了Gzip压缩的方式关于Lzo压缩，twitter有一篇文章，介绍的比较详细，见这里： Lzo压缩相比Gzip压缩，有如下特点：压缩解压的速度很快 Lzo压缩是基于Block分块的，这样，一个大的文件（在Hadoop上可能会占用多个Block块），就可以由多个MapReduce并行 ...

2012-05-28 11:03
浏览 935
评论(0)
分类:互联网

使用Hive读取Hbase中的数据

博客分类：

云计算

转自：http://www.4ucode.com/Study/Topic/1925466 第一步，启动hadoop，命令：./start-all.sh 第二步，启动hive，命令： ./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master ...

2012-05-23 13:12
浏览 2275
评论(0)
分类:互联网

[转]github常用指令

博客分类：

Plugins
Java工具

总结一下ubuntu下github常用的命令，设置部分跳过，假设repository的名字叫hello-world： 1.创建一个新的repository：先在github上创建并写好相关名字，描述。$cd ~/hello-world //到hello-world目录$git init //初始化$git add . //把所有文件加入到索引 ...

2012-05-16 14:49
浏览 768
评论(0)
分类:开源软件

在XP系统下配置eclipse集成hadoop开发

博客分类：

云计算

一、目的：由于hadoop只能在Linux环境下运行，所以对于在windwos系统下使用IDE工作的开发人员来说，调试是件麻烦的工作，所以我们今天要配置的Hadoop开发环境是在Windows XP系统下，并集成eclipse使开发人员在做hadoop开发时更容易调试。二、本人配置的版本信息：windows XP系统，jdk1.6.0_05，eclipse-jee-indigo-win32 Release 3.7.0，cygwin 1.7.9-1，hadoop-0.20.2，三、配置步骤：1、安装cygwin：cygwin网上的资料很多，这里就不再详述。2、JAVA安装对于JAVA的安装与环境配 ...

2012-05-05 11:09
浏览 1049
评论(0)
分类:互联网

使用Hive读取Hbase中的数据

博客分类：

云计算

转自：http://www.4ucode.com/Study/Topic/1925466 第一步，启动hadoop，命令：./start-all.sh 第二步，启动hive，命令： ./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=12 ...

2012-04-18 14:24
浏览 1099
评论(0)
分类:互联网

Web日志分析方法概述让复杂的数据挖掘变得简单可行

博客分类：

云计算

志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同，很难一概而论。本文讨论的日志处理方法中的日志，仅指Web日志。其实并没有精确的定义，可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志，以及各种Web应用程序自己输出的日志。在Web日志中，每条日志通常代表着用户的一次访问行为，例如下面就是一条典型的apache日志： 211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 ...

2012-04-13 16:31
浏览 874
评论(0)
分类:互联网

应用sqoop将MySQL数据库中的数据导入Hbase

博客分类：

云计算

转自：http://www.bwxxkj.com/a/jishuzhongxin/xingyeyingyong/2012/0327/88943.html 前提：安装好 sqoop、hbase。教材气的人，他们彼此建树友情，是很是轻易的；要他破损已有的友情，倒是一件难事。正如黄金的器皿一样，是不轻易破裂的；假如破损了，要修补它，使它恢答复复兴状，倒是最轻易的事。下载jbdc驱动：mysql-connector-java-5.1.10.jar 将?mysql-connector-java-5.1.10.jar?复制到 /usr/lib/sqoop/lib/ 下 MySQL导入HBas ...

2012-04-12 11:31
浏览 2066
评论(0)
分类:互联网

linux分割大文件(tar + split) 使用分卷打包

博客分类：

OS操作系统 Linux

在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制，也就是说一个文件最大不能超过2G，如果压缩包的的内容很大，最后的结果就会超过2G，那么该怎么办呢？又或者压缩包希望� ...

2012-04-11 10:06
浏览 4361
评论(0)
分类:操作系统

Linux上iptables防火墙的基本应用教程

博客分类：

OS操作系统 Linux

iptables是Linux上常用的防火墙软件，下面vps侦探给大家说一下iptables的安装、清除iptables规则、iptables只开放指定端口、iptables屏蔽指定ip、ip段及解封、删除已添加的iptables规则等iptables的基本应用。 1、安装iptables防火墙如果没有安装iptables需要先安装，CentOS执行： yum install iptables Debian/Ubuntu执行： apt-get install iptables 2、清除已有iptables规则 iptables -Fiptables -Xiptables -Z 3 ...

2012-04-09 11:51
浏览 956
评论(0)
分类:操作系统

常用查看Linux系统信息命令

博客分类：

OS操作系统 Linux

系统 # uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cpuinfo # 查看CPU信息 # hostname # 查看计算机名 # lspci -tv # 列出所有PCI设备 # lsusb -tv # 列出 ...

2012-04-09 11:22
浏览 934
评论(0)
分类:互联网

hadoop中的trash机制，恢复删除的文件

博客分类：

云计算

Hadoop回收站trash，默认是关闭的。 1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description> </property&g ...

2012-03-31 13:46
浏览 2201
评论(0)
分类:互联网

Hadoop 和DBMS 的互补性

博客分类：

云计算

随着Microsoft 也加入Hadoop 阵营，Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论，双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持，Hadoop 也有自己的优势和使用案例. 就如前一篇TDWI 所说的3个V 问题，新一代Hadoop MapReduce 主要解决的是数据容量和多种类型的数据（结构化，半结构化，非结构化）. 而传统 ...

2012-03-29 12:22
浏览 673
评论(0)
分类:互联网

Hadoop 中的两表join

博客分类：

云计算

转自：http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html 作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各� ...

2012-03-29 12:20
浏览 852
评论(0)
分类:互联网

各版本编译hadoop eclipse plugin

博客分类：

云计算

转自：http://www.gemini5201314.net/hadoop/%E5%90%84%E7%89%88%E6%9C%AC%E7%BC%96%E8%AF%91hadoop-eclipse-plugin.html 最近一直在使用mapr版本的hadoop, 然后用的karmasphere 的eclipse plugin . 突然想找一个eclipse IDE 连接一下Cloudera 版本的方便一下操作，结果就悲剧� ...

2012-03-29 12:19
浏览 1386
评论(0)
分类:互联网

Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

博客分类：

机器学习

转自：http://hi.baidu.com/dmuyy/blog/item/2a0090e73c434334b83820fd.html Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于Java实现的可扩展的高效的推荐引擎。该推荐引擎是用<userid,itemid,preference>这样简单的数据格式表达用户对物品的偏好。以此为输入数据，计算后就可以得到为每个user推荐的items列表。他提供了方便的单机版的编程接口，也提供了基于hadoop的分布式的实现。单机版的编程接口主要适用于写demo和做算法的评估，若 ...

2012-03-28 11:02
浏览 1711
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop集群上使用Lzo压缩

使用Hive读取Hbase中的数据

[转]github常用指令

在XP系统下配置eclipse集成hadoop开发

使用Hive读取Hbase中的数据

Web日志分析方法概述让复杂的数据挖掘变得简单可行

应用sqoop将MySQL数据库中的数据导入Hbase

linux分割大文件(tar + split) 使用分卷打包

Linux上iptables防火墙的基本应用教程

常用查看Linux系统信息命令

hadoop中的trash机制，恢复删除的文件

Hadoop 和DBMS 的互补性

Hadoop 中的两表join

各版本编译hadoop eclipse plugin

Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>