最新文章列表

Jerry's spark demo application

Java应用程序入口: 输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序。 因为Spark的核心代码是Scala编写,因此也能直接在Scala控制台里演示这个demo:   这个demo演示的命令行:  
JerryWang_SAP 评论(0) 有400人浏览 2020-07-02 15:05

推荐一个免费的生成词云(word cloud)的在线工具

“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。 “词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 今天推荐一个免费的生成词云的在线网站: http://www.yyyweb.com/demo/inner-sho ...
JerryWang_SAP 评论(0) 有6025人浏览 2018-10-30 11:51

Storm的wordcount实战示例

有关strom的具体介绍,本文不再过多叙述,不了解的朋友可参考之前的文章 http://qindongliang.iteye.com/category/361820 本文主要以一个简单的wordcount例子,来了解下storm应用程序的开发,虽然只是一个简单的例子 但麻雀虽小,五脏俱全,主要涉及的内容: (1)wordcount的拓扑定义 (2)spout的使用 (3)bolt的使用 (4)ti ...
qindongliang1922 评论(0) 有2812人浏览 2016-09-18 17:33

WordCount源码详解

1.源码解释 package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.h ...
永夜-极光 评论(0) 有2693人浏览 2016-04-22 13:27

spark wordcount 第一个spark 程序

      wordcount package com.baoy.worldcount import org.apache.spark.{SparkConf, SparkContext} /** * Created by cmcc-B100036 on 2016/4/1. */ object WordCount { def main(args: Array ...
knight_black_bob 评论(0) 有1868人浏览 2016-04-01 16:04

使用Eclipse基于Maven使用Java开发WordCount程序项目

1.前提条件     下载JavaEE Eclipse ,自带Maven     安装好JDK1.8     下载并配置了Hadoop 2.6.x   2.创建Maven Project       选择 Maven-archetype-quickstart 选项
zhangym195 评论(0) 有4978人浏览 2016-02-11 12:15

Hadoop2.7.1-WordCount Demo

package mytest.hadoop.mr1; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoo ...
jsjrjz08 评论(0) 有1133人浏览 2015-10-12 13:29

Spark入门之WordCount

环境: Hadoop版本:Apache Hadoop2.7.1     Spark版本:Apache Spark1.4.1 核心代码: 测试数据: a,b,a c,d,f a,b,h,p,z a,f,o 在命令行使用sbt打包:sbt clean package 上 ...
qindongliang1922 评论(0) 有1594人浏览 2015-09-06 20:15

Scala版本的WordCount

在处理搜索的同义词数据时遇到一个问题,本来是由数据人员人工整理好的数据,发我直接使用,后来发现发我的数据里面总是存在点问题,也难怪了 20 ...
qindongliang1922 评论(0) 有1841人浏览 2015-07-20 19:17

spark eclipse写wordcount

安装spark,见上文 http://blackproof.iteye.com/blog/2182393   配置window开发环境 window安装scala 下载scala http://www.scala-lang.org/files/archive/scala-2.10.4.msi 安装即可   window配置eclipse 下载eclipse   http:// ...
blackproof 评论(0) 有2701人浏览 2015-02-03 10:18

hadoop1.2.1之hello,world

在hadoop文件系统上创建文件夹test fs -mkdir test   拷贝当前文件夹input的内容到hadoop文件系统上 fs -put input/ ./test   查看是否拷贝成功 fs -ls -rw-r--r--   1 chenc supergroup         13 2014-08-12 02:08 /user/chenc/test/input/t ...
michael_roshen 评论(0) 有214人浏览 2014-08-12 17:35

004_hadoop中MapReduce详解_1

1.什么是MapReduce MapReduce是Google公司的核心计算模型,我在前面提到过,Google的三大论文。hadoop受到Google的启发开发出自己的MapReduce框架,基于这个框架写出的应用程序能够在上千台计算机上组成大型集群,并以一种可靠容错的方式并行处理上T级别的数据,实现hadoop在集群上的数据和任务并行计算与处理1.一个MapReduce作业通常会把输入的数据集 ...
zc985552943 评论(1) 有2030人浏览 2014-07-03 13:53

图解shell命令运行Hadoop1.2的WordCount例子

在hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译,再运行,这样一来比较麻烦,特别是对一些刚学习的朋友来说,在eclipse配置个hadoop也许都得折腾半天,所以本篇,散仙会介绍使用shell命令的改变它的编译路径,并重新打 ...
qindongliang1922 评论(0) 有2716人浏览 2013-11-04 19:07

eclipse 运行hadoop wordcount

给大家 一个建议 如果使用1.XX的版本hadoop  建议大家严格按照  以下的  第一条 中的博文的版本安装,可以是单机或者伪分布式,主要是因为,hadoop版 ...
younglibin 评论(1) 有8029人浏览 2013-08-15 15:45

linux上单机haoop配置笔记

先说一下我的环境 Win7 Visualbox4.2.10 ubuntu-12.04.2-desktop-i386.iso hadoop0.20.2 jdk1.6.10 我的配置文件 Hosts 10.13.19.55 master Profile export HADOOP_HOME=/usr/local/hadoop export JAVA_HOME=/usr/local/java ...
bingyingao 评论(0) 有2150人浏览 2013-04-02 20:25

一个hadoop执行问题

刚刚学习hadoop,搭建起集群在运行hadoop自带例子时报如下错误。请高手帮我解决下 hadoop jar c:/hadoop/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount in/test.txt out 12/06/08 15:57:08 INFO input.FileInputFormat: Total input paths ...
yaoxiaowei0909 评论(2) 有1247人浏览 2012-06-08 17:40

Ubuntu下搭建单节点Hadoop环境及WordCount示例的运行

基于前两篇的基础,在ubuntu下搭建hadoop环境及运行wordcount示例的过程比较顺利,现做一下简单记录。 环境:ubuntu10.04 hadoop0.20.2 jdk1.6.0_29 步骤如下: 1.安装JDK并配置环境变量   一些文章里说用sudo apt-get install sun-java6-jdk之类的命令,我对ubuntu比较小白,半天也没折腾出来,然后就直接去oral ...
aaron-han 评论(0) 有2318人浏览 2012-03-31 23:24

Hadoop运行WordCount示例出现的一些问题及解决办法

博客标题起的真别扭。。 先说两点: 1.用cygwin伪分布式环境运行的。 2.hadoop开发者第一期里有个DFSOperator的示例,那个更简单,怎么打jar包,怎么运行之类的问题可以先参见一个那篇文章。 运行WordCount示例遇到了两个问题: a. ***/work/tmp does not exist的问题 解决办法:配置conf/mapred-site.xml文件中mapred. ...
aaron-han 评论(0) 有2304人浏览 2012-03-30 20:30

基于HIVE文件格式的map reduce代码编写

by hugh.wangp   我们的数据绝大多数都是在HIVE上,对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hive client的方式就比较单一,直 ...
hugh.wangp 评论(0) 有12916人浏览 2012-02-14 19:03

linux下eclipse上运行hadoop自带wordcount程序

 Eclipse 开发Hadoop       下载hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar       注意 ...
wahaha603 评论(0) 有2410人浏览 2012-02-09 16:35

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics