`
文章列表
目的 这篇文档的目的是帮助你快速完成在三台以上服务器搭建Hadoop应用平台。 先决条件     VirtualBox  虚拟机共3台       操作系统:Ubuntu 10.4       内存: 256M以上 机器名 IP   作用  master 10.9.9.100 NameNode、master、jobTracker slave01 10.9.9.101 ...
  分析tomcat的日志 读tomcat的日志文件,然后输出数据,写一个Streaming的统计程序 1:要求统计TOP 100的 IP 2:统计Top 50 页面PV 3:统计浏览器的类型和版本

spark SQL 学习

   1:通过Spark SQL 查询hive中的数据 要求提供操作截图。  利用第二节课的数据,统计每个地区的人数,并按人数排序2: 写一个简单的程序通过JDBC访问Spark SQL Thrift server能实现查询,要求过程和截图。  详见附件

hive初试

1:搭建hadoop和hive,mysql的环境,过程截图。   2:利用上节课的数据,建表并导入数据。 3:最热门的查询词排行 top10 4:用户查询排行 top10 5:搜索结果排名第1,但是点击次序排在第2的数据有多少?   2:利用上节课的数据,建表并导入数据。 数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 CREATE EXTERNAL TABLE sg_ ...
使用spark分析sogou日志 下载用户查询日志的精简版,完整版http://download.labs.sogou.com/dl/q.html 数据格式说明: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。实现以下功能: 1、最热门的查询词排行 top10 2、用户查询排行 top10 3、网站访问排行版(不用区分二级域名) top50   这从我们下载下来的文件存在hdfs中,关于hadoop的安 ...

Spark源码倒腾

本文演示spark源码在idea编辑器上编译和提交任务 1、从网站上下载spark源码,在idea中 点击 VCS->CheckOut form Version Control->Git 把代码下载到本地         https://github.com/apache/spark            2、为了能让本地编译更快一些,设置父pom.xml 中加上oschina的maven源    <repository> <id>nexus</id> <name>local private nex ...
计划2个月内能精通spark开发,今天起开始努力! 1、环境准备   虚拟机采用visualbox,https://www.virtualbox.org      在上面搭建ubuntu server 集群,下载ubuntu server 光盘镜像,http://www.ubuntu.com/download/server   在visualbox上安装 u ...
/usr/share/applications   ~/.gnome/apps  ~/.local/share/applications.   下面删除文件 jetbrains-idea.desktop
  信号量使用案例:   import java.util.HashSet; import java.util.List; import java.util.Set; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.Semaphore; public class MySemaphore extends Thread { Semaphore position; private int id; pub ...
通过以下方法动态获取spring bean,主要用于通过一个bean字符串转换成bean的实例。 1、定义bean上下文操作方法     import org.springframework.beans.BeansException; import org.springframework.beans.factory.NoSuchBeanDefinitionException; import org.springframework.context.ApplicationContext; import org.springframework.context.Application ...
Project configuration is not up-to-date with pom.xml. Run project configuration  
VirtualBox中安装Ubuntu11.04增强功能失败引用 fuliang@fuliang-VirtualBox:~$ sudo /etc/init.d/vboxadd setupRemoving existing VirtualBox DKMS kernel modules ...done.Removing existing VirtualBox non-DKMS kernel modules ...done.Building the VirtualBox Guest Additions kernel modulesThe headers for the current runnin ...
使用mina框架传输对象实体方法如下:   对像实体 public class TransDataEntity { private String md5; private String path; private String fromIP; private byte[] filedata; public String getMd5() { return md5; } public void setMd5(String md5) { this.md5 = md5; } public String getPath() { return p ...
使用mina进行文件传输的方法摘抄如下:     流处理线程公共类 import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; /** * 用于mina 服务器上传下载 * 流处理线程公共类 * * */ public class IoStreamThreadWork extends Thread ...
Libzdb 实现了一个小型、快速和易用的线程安全的连接池数据库API,可连接多种数据库,零配置,通过URL指定连接信息。 Example: 默认建立5个连接 URL_T url = URL_new("mysql://localhost/test?user=root&password=swordfish"); ConnectionPool_T pool = ConnectionPool_new(url); ConnectionPool_start(pool); [..] Connection_T con = ConnectionP ...
Global site tag (gtag.js) - Google Analytics