本月博客排行
-
第1名
arpenker -
第2名
kaizi1992 -
第3名
wy_19921005
年度博客排行
-
第1名
龙儿筝 -
第2名
宏天软件 -
第3名
青否云后端云 - wallimn
- vipbooks
- gashero
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- e_e
- tanling8334
- arpenker
- sam123456gz
- zysnba
- kaizi1992
- xiangjie88
- lemonhandsome
- ganxueyun
- xyuma
- Xeden
- wangchen.ily
- zhanjia
- jh108020
- johnsmith9th
- zxq_2017
- jbosscn
- forestqqqq
- ajinn
- daizj
- xpenxpen
- wjianwei666
- ranbuijj
- 喧嚣求静
- kingwell.leng
- silverend
- lchb139128
- kristy_yy
- jveqi
- lich0079
- lzyfn123
- java-007
- sunj
- yeluowuhen
- lerf
- xiaoxinye
- flashsing123
- zhangjijun
- lxguy
- lyndon.lin
最新文章列表
Java程序中不通过hadoop jar的方式访问hdfs
一般情况下,我们使用Java访问hadoop distributed file system(hdfs)使用hadoop的相应api,添加以下的pom.xml依赖(这里以hadoop2.2.0版本为例):
<dependency>
<groupId>org.apache.hadoop</groupId>
<arti ...
hadoop2.6.0版本搭建伪分布式环境
由于个人需要在自己的笔记本上搭建hadoop伪分布环境,为了方便自己使用,如想看机器也看之前的一篇博客:hadoop2.6.0版本集群环境搭建
一台虚拟机,配置信息如下:
内存:1G,cpu:一个core,硬盘:15G
1、修改下主机名为master
sudo vi /etc/sysconfig/network
修改结果后:
重启电脑后再查看结果:
hdfs over ftp 安装部署
hdfs-over-ftp是一个开源,简单易用的实现了对HDFS系统的下载和上传功能的小工具。可以作为管理工具来使用,快捷方便。
1.安装jdk(1.6以上版本)并配置环境变量
分别执行java –version和javac –version,若显示版本真确,则说明安装和配置成功。
2.安装hadoop,并将服务启动并配置环境变量。
执行hadoop version,若显正确版本号 ...
Spark API编程动手实战-06-对搜狗日志文件深入实战操作
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html
我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:
上传到服务器后,解压并查看:
查看Sogou文件内容:
该文件的格式如下所示:访问时间 \t 用户ID \t 查询词 \t 该URL在返回结果中的
如何远程读取CDH的hadoop上的HDFS数据?
以前,散仙曾写过一篇如何在win上使用eclipse远程读取HDFS上的数据,不过当时使用的hadoop是1.2版本的,而且还是apache的,今天hadoop的最新版本已经到hadoop2.6了,而我们服务器上的hadoop是CHD5.3的版本,使用的hadoop是hadoop2.5.0版本的。
今天,散仙就以hadoop2.x的版本记录下,如何在eclipse中远程连接并读取数据,在网上搜的代 ...
请小心Hadoop2.5.0和Java Web项目集成bug
今天,散仙在Myeclipse构建的Java的Web项目里使用hadoop2.5的jar包,去连接Linux系统上的HDFS,做一个数据展示的工程,发生了一个莫名其妙的异常,信息如下:
Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.collect.MapMaker.keyEqui ...
hadoop学习--HDFS
hadoop fs -ls /
hdfs dfs -ls / #操作命令
1、架构
下图表示/test/a.log这个文件保存3个副本,该文件有blk_1,blk_2两个块,
第一个块保存在h0,h1,h3这3个服务器中,
第二个块保存在h0,h2,h4这3个服务器中。。
2、HDFS基础数据
NameNode是整个文件系统的管理节点;它维护着整个文件系统的文件目录树,文件/目录的 ...
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def ...
安装好hadoop集群后上传文件出错
错误日志如下:
Java HotSpot(TM) Client VM warning: You have loaded library /root/devtools/hadoop-2.5.2/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack g ...
hadoop hdfs常用命令
hdfs常用命令
-help [cmd] //显示命令的帮助信息
-ls(r) <path> //显示当前目录下所有文件
-du(s) <path> //显示目录中所有文件大小
-count[-q] <path> //显示目录中文件数量
-mv <src> <dst> //移动多个文件到目标目录
-cp <src> <ds ...
HDFS 常用命令集合
选项名称 使用格式 含义-ls -ls <路径> 查看指定路径的当前目录结构-lsr -lsr <路径> 递归查看指定路径的目录结构-du -du <路径> 统计目录下个文件大小-dus -dus <路径> 汇总统计目录下文件(夹)大小-count ...
HDFS文件系统操作文件或文件夹
package com.my.hdfs;
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io. ...
Hadoop1.0-HDFS介绍
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型 ...
HDFS常用命令
HDFS 常用的文件操作命令
1.-cat
使用方法:hadoop fs -cat URI
说明:将路径指定的文件输出到屏幕
示例: hadoop fs -cat hdfs://host1:port1/file
hadoop fs -cat file:///file3
2.-copyFromLocal
使用方法:hadoop fs -copyFromLocal & ...
HDFS 常用的文件操作命令
HDFS 常用的文件操作命令
1.-cat
使用方法:hadoop fs -cat URI
说明:将路径指定的文件输出到屏幕
示例: hadoop fs -cat hdfs://host1:port1/file
hadoop fs -cat file:///file3
2.-copyFromLocal
使用方法:hadoop fs -copyFr ...