本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- benladeng5225
- wallimn
- ranbuijj
- javashop
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- robotmen
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- nychen2000
- zxq_2017
- lzyfn123
- wjianwei666
- forestqqqq
- ajinn
- siemens800
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
- 喧嚣求静
- Xeden
最新文章列表
Jerry's spark demo application
Java应用程序入口:
输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序。
因为Spark的核心代码是Scala编写,因此也能直接在Scala控制台里演示这个demo:
这个demo演示的命令行:
推荐一个免费的生成词云(word cloud)的在线工具
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
今天推荐一个免费的生成词云的在线网站:
http://www.yyyweb.com/demo/inner-sho ...
Storm的wordcount实战示例
有关strom的具体介绍,本文不再过多叙述,不了解的朋友可参考之前的文章
http://qindongliang.iteye.com/category/361820
本文主要以一个简单的wordcount例子,来了解下storm应用程序的开发,虽然只是一个简单的例子
但麻雀虽小,五脏俱全,主要涉及的内容:
(1)wordcount的拓扑定义
(2)spout的使用
(3)bolt的使用
(4)ti ...
spark wordcount 第一个spark 程序
wordcount
package com.baoy.worldcount
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by cmcc-B100036 on 2016/4/1.
*/
object WordCount {
def main(args: Array ...
使用Eclipse基于Maven使用Java开发WordCount程序项目
1.前提条件
下载JavaEE Eclipse ,自带Maven
安装好JDK1.8
下载并配置了Hadoop 2.6.x
2.创建Maven Project
选择 Maven-archetype-quickstart 选项
Spark入门之WordCount
环境:
Hadoop版本:Apache Hadoop2.7.1
Spark版本:Apache Spark1.4.1
核心代码:
测试数据:
a,b,a
c,d,f
a,b,h,p,z
a,f,o
在命令行使用sbt打包:sbt clean package
上 ...
spark eclipse写wordcount
安装spark,见上文
http://blackproof.iteye.com/blog/2182393
配置window开发环境
window安装scala
下载scala http://www.scala-lang.org/files/archive/scala-2.10.4.msi
安装即可
window配置eclipse
下载eclipse
http:// ...
hadoop1.2.1之hello,world
在hadoop文件系统上创建文件夹test
fs -mkdir test
拷贝当前文件夹input的内容到hadoop文件系统上
fs -put input/ ./test
查看是否拷贝成功
fs -ls
-rw-r--r-- 1 chenc supergroup 13 2014-08-12 02:08 /user/chenc/test/input/t ...
004_hadoop中MapReduce详解_1
1.什么是MapReduce
MapReduce是Google公司的核心计算模型,我在前面提到过,Google的三大论文。hadoop受到Google的启发开发出自己的MapReduce框架,基于这个框架写出的应用程序能够在上千台计算机上组成大型集群,并以一种可靠容错的方式并行处理上T级别的数据,实现hadoop在集群上的数据和任务并行计算与处理1.一个MapReduce作业通常会把输入的数据集 ...
图解shell命令运行Hadoop1.2的WordCount例子
在hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译,再运行,这样一来比较麻烦,特别是对一些刚学习的朋友来说,在eclipse配置个hadoop也许都得折腾半天,所以本篇,散仙会介绍使用shell命令的改变它的编译路径,并重新打 ...
linux上单机haoop配置笔记
先说一下我的环境
Win7
Visualbox4.2.10
ubuntu-12.04.2-desktop-i386.iso
hadoop0.20.2
jdk1.6.10
我的配置文件
Hosts
10.13.19.55 master
Profile
export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/local/java
...
一个hadoop执行问题
刚刚学习hadoop,搭建起集群在运行hadoop自带例子时报如下错误。请高手帮我解决下
hadoop jar c:/hadoop/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount in/test.txt out
12/06/08 15:57:08 INFO input.FileInputFormat: Total input paths ...
Ubuntu下搭建单节点Hadoop环境及WordCount示例的运行
基于前两篇的基础,在ubuntu下搭建hadoop环境及运行wordcount示例的过程比较顺利,现做一下简单记录。
环境:ubuntu10.04 hadoop0.20.2 jdk1.6.0_29
步骤如下:
1.安装JDK并配置环境变量
一些文章里说用sudo apt-get install sun-java6-jdk之类的命令,我对ubuntu比较小白,半天也没折腾出来,然后就直接去oral ...
Hadoop运行WordCount示例出现的一些问题及解决办法
博客标题起的真别扭。。
先说两点:
1.用cygwin伪分布式环境运行的。
2.hadoop开发者第一期里有个DFSOperator的示例,那个更简单,怎么打jar包,怎么运行之类的问题可以先参见一个那篇文章。
运行WordCount示例遇到了两个问题:
a. ***/work/tmp does not exist的问题
解决办法:配置conf/mapred-site.xml文件中mapred. ...
基于HIVE文件格式的map reduce代码编写
by hugh.wangp
我们的数据绝大多数都是在HIVE上,对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hive client的方式就比较单一,直 ...