- 浏览: 155238 次
- 性别:
- 来自: 北京
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
文章列表
Hadoop集群上使用Lzo压缩
- 博客分类:
- 云计算
转自:http://www.tech126.com/hadoop-lzo/
自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩
当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多
而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式
关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:
Lzo压缩相比Gzip压缩,有如下特点:
压缩解压的速度很快
Lzo压缩是基于Block分块的,这样,一个大的文件(在Hadoop上可能会占用多个Block块),就可以由多个MapReduce并行 ...
使用Hive读取Hbase中的数据
- 博客分类:
- 云计算
转自:http://www.4ucode.com/Study/Topic/1925466
第一步,启动hadoop,命令:./start-all.sh
第二步,启动hive,命令:
./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master ...
总结一下ubuntu下github常用的命令,设置部分跳过,假设repository的名字叫hello-world:
1.创建一个新的repository:先在github上创建并写好相关名字,描述。$cd ~/hello-world //到hello-world目录$git init //初始化$git add . //把所有文件加入到索引 ...
在XP系统下配置eclipse集成hadoop开发
- 博客分类:
- 云计算
一、目的:由于hadoop只能在Linux环境下运行,所以对于在windwos系统下使用IDE工作的开发人员来说,调试是件麻烦的工作,所以我们今天要配置的Hadoop开发环境是在Windows XP系统下,并集成eclipse使开发人员在做hadoop开发时更容易调试。二、本人配置的版本信息:windows XP系统,jdk1.6.0_05,eclipse-jee-indigo-win32 Release 3.7.0,cygwin 1.7.9-1,hadoop-0.20.2,三、配置步骤:1、安装cygwin:cygwin网上的资料很多,这里就不再详述。2、JAVA安装对于JAVA的安装与环境配 ...
使用Hive读取Hbase中的数据
- 博客分类:
- 云计算
转自:http://www.4ucode.com/Study/Topic/1925466
第一步,启动hadoop,命令:./start-all.sh
第二步,启动hive,命令:
./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=12 ...
志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:
211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 ...
转自:http://www.bwxxkj.com/a/jishuzhongxin/xingyeyingyong/2012/0327/88943.html
前提:安装好 sqoop、hbase。
教材气的人,他们彼此建树友情,是很是轻易的;要他破损已有的友情,倒是一件难事。正如黄金的器皿一样,是不轻易破裂的;假如破损了,要修补它,使它恢答复复兴状,倒是最轻易的事。下载jbdc驱动:mysql-connector-java-5.1.10.jar
将?mysql-connector-java-5.1.10.jar?复制到 /usr/lib/sqoop/lib/ 下
MySQL导入HBas ...
在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制,也就是说一个文件最大不能超过2G,如果压缩包的的内容很大,最后的结果就会超过2G,那么该怎么办呢?又或者压缩包希望 ...
iptables是Linux上常用的防火墙软件,下面vps侦探给大家说一下iptables的安装、清除iptables规则、iptables只开放指定端口、iptables屏蔽指定ip、ip段及解封、删除已添加的iptables规则等iptables的基本应用。
1、安装iptables防火墙
如果没有安装iptables需要先安装,CentOS执行:
yum install iptables
Debian/Ubuntu执行:
apt-get install iptables
2、清除已有iptables规则
iptables -Fiptables -Xiptables -Z
3 ...
常用查看Linux系统信息命令
- 博客分类:
- OS操作系统 Linux
系统
# uname -a # 查看内核/操作系统/CPU信息
# head -n 1 /etc/issue # 查看操作系统版本
# cat /proc/cpuinfo # 查看CPU信息
# hostname # 查看计算机名
# lspci -tv # 列出所有PCI设备
# lsusb -tv # 列出 ...
hadoop中的trash机制,恢复删除的文件
- 博客分类:
- 云计算
Hadoop回收站trash,默认是关闭的。
1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description> </property&g ...
Hadoop 和DBMS 的互补性
- 博客分类:
- 云计算
随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Hadoop 也有自己的优势和使用案例.
就如前一篇TDWI 所说的3个V 问题,新一代Hadoop MapReduce 主要解决的是数据容量和多种类型的数据(结构化,半结构化,非结构化). 而传统 ...
Hadoop 中的两表join
- 博客分类:
- 云计算
转自:http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各 ...
转自:http://www.gemini5201314.net/hadoop/%E5%90%84%E7%89%88%E6%9C%AC%E7%BC%96%E8%AF%91hadoop-eclipse-plugin.html
最近一直在使用mapr版本的hadoop, 然后用的karmasphere 的eclipse plugin . 突然想找一个eclipse IDE 连接一下Cloudera 版本的方便一下操作,结果就悲剧 ...
转自:http://hi.baidu.com/dmuyy/blog/item/2a0090e73c434334b83820fd.html
Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现,它是一个基于Java实现的可扩展的高效的推荐引擎。该推荐引擎是用<userid,itemid,preference>这样简单的数据格式表达用户对物品的偏好。以此为输入数据,计算后就可以得到为每个user推荐的items列表。他提供了方便的单机版的编程接口,也提供了基于hadoop的分布式的实现。单机版的编程接口主要适用于写demo和做算法的评估,若 ...