- 浏览: 40810 次
- 性别:
- 来自: 杭州
最新评论
-
bingyingao:
标记一下,用得上
Hadoop分布式集群平台搭建 -
it158:
这段<repository> 代码放到什么地方能 ...
在Maven中引用jcaptcha出现Missing artifact错误的解决办法 -
锅巴49:
写得很详细,顶。
Hadoop分布式集群平台搭建 -
四个石头:
...
poi3.6 读写excel 操作 -
dongbiying:
有相应的 jar 吗!给我个呗! QQ: 892966225 ...
poi3.6 读写excel 操作
文章列表
[置顶] Hadoop分布式集群平台搭建
- 博客分类:
- Hadoop
目的
这篇文档的目的是帮助你快速完成在三台以上服务器搭建Hadoop应用平台。
先决条件
VirtualBox
虚拟机共3台
操作系统:Ubuntu 10.4
内存: 256M以上
机器名
IP
作用
master
10.9.9.100
NameNode、master、jobTracker
slave01
10.9.9.101
...
分析tomcat的日志
读tomcat的日志文件,然后输出数据,写一个Streaming的统计程序
1:要求统计TOP 100的 IP
2:统计Top 50 页面PV
3:统计浏览器的类型和版本
spark SQL 学习
- 博客分类:
- 大数据
1:通过Spark SQL 查询hive中的数据 要求提供操作截图。
利用第二节课的数据,统计每个地区的人数,并按人数排序2: 写一个简单的程序通过JDBC访问Spark SQL Thrift server能实现查询,要求过程和截图。
详见附件
1:搭建hadoop和hive,mysql的环境,过程截图。
2:利用上节课的数据,建表并导入数据。
3:最热门的查询词排行 top10 4:用户查询排行 top10 5:搜索结果排名第1,但是点击次序排在第2的数据有多少?
2:利用上节课的数据,建表并导入数据。
数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。
CREATE EXTERNAL TABLE sg_ ...
使用spark分析sogou日志
下载用户查询日志的精简版,完整版http://download.labs.sogou.com/dl/q.html 数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。实现以下功能: 1、最热门的查询词排行 top10 2、用户查询排行 top10 3、网站访问排行版(不用区分二级域名) top50
这从我们下载下来的文件存在hdfs中,关于hadoop的安 ...
本文演示spark源码在idea编辑器上编译和提交任务
1、从网站上下载spark源码,在idea中 点击 VCS->CheckOut form Version Control->Git 把代码下载到本地
https://github.com/apache/spark
2、为了能让本地编译更快一些,设置父pom.xml 中加上oschina的maven源
<repository>
<id>nexus</id>
<name>local private nex ...
Spark学习环境搭建-虚拟机版
- 博客分类:
- 大数据
计划2个月内能精通spark开发,今天起开始努力!
1、环境准备
虚拟机采用visualbox,https://www.virtualbox.org
在上面搭建ubuntu server 集群,下载ubuntu server 光盘镜像,http://www.ubuntu.com/download/server
在visualbox上安装 u ...
/usr/share/applications
~/.gnome/apps
~/.local/share/applications.
下面删除文件
jetbrains-idea.desktop
信号量使用案例:
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Semaphore;
public class MySemaphore extends Thread {
Semaphore position;
private int id;
pub ...
通过以下方法动态获取spring bean,主要用于通过一个bean字符串转换成bean的实例。
1、定义bean上下文操作方法
import org.springframework.beans.BeansException;
import org.springframework.beans.factory.NoSuchBeanDefinitionException;
import org.springframework.context.ApplicationContext;
import org.springframework.context.Application ...
Project configuration is not up-to-date with pom.xml. Run project configuration
VirtualBox中安装Ubuntu11.04增强功能失败引用
fuliang@fuliang-VirtualBox:~$ sudo /etc/init.d/vboxadd setupRemoving existing VirtualBox DKMS kernel modules ...done.Removing existing VirtualBox non-DKMS kernel modules ...done.Building the VirtualBox Guest Additions kernel modulesThe headers for the current runnin ...
使用mina框架传输对象实体
- 博客分类:
- mina
使用mina框架传输对象实体方法如下:
对像实体
public class TransDataEntity {
private String md5;
private String path;
private String fromIP;
private byte[] filedata;
public String getMd5() {
return md5;
}
public void setMd5(String md5) {
this.md5 = md5;
}
public String getPath() {
return p ...
用于mina的文件传输方法
- 博客分类:
- mina
使用mina进行文件传输的方法摘抄如下:
流处理线程公共类
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
/**
* 用于mina 服务器上传下载
* 流处理线程公共类
* *
*/
public class IoStreamThreadWork extends Thread ...
C语言数据库连接池 libzdb
- 博客分类:
- C++
Libzdb 实现了一个小型、快速和易用的线程安全的连接池数据库API,可连接多种数据库,零配置,通过URL指定连接信息。
Example: 默认建立5个连接
URL_T url = URL_new("mysql://localhost/test?user=root&password=swordfish");
ConnectionPool_T pool = ConnectionPool_new(url);
ConnectionPool_start(pool);
[..]
Connection_T con = ConnectionP ...