- 浏览: 50941 次
- 性别:
- 来自: 福建
最新评论
-
joyhen:
感谢,要学的东西好多啊
Apache Hadoop生态系统 -
java大风车:
fffffffffffffffffffffffffffff
Apache Hadoop生态系统
文章列表
1.首先安装Xvfb :
sudo apt-get install Xvfb
2.打开终端,执行:
Xvfb :99 -ac 2>/dev/null
export DISPLAY=:99 ( :99是上一条指令设置的端口对应到null )
注解:用来将X11的界面输出重置到null,也就是将测试程序启动的浏览器界面设置为不需显示.注意:本设置只在当前终端有效,所以执行程序也需要通过当前终端启动运行.
3.这时候可以通过google-chrome命令启动浏览器测试.发现命令行输出了启动的信息,但是浏览器界面就没有出现了.说明你已经成功了使用了 ...
- 2014-08-21 11:16
- 浏览 748
- 评论(0)
当我们配置Nutch抓取 http://blog.csdn.net/gaokao2011/article/details/38661903的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ......这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate
web browser)就可以绕过这种限制。
在nutch-default.xml中有5项配置是和User-Agent相关的:
<property>
<name>http.agen ...
- 2014-08-18 15:58
- 浏览 438
- 评论(0)
rdesktop是linux下支持Windows远程桌面连接的客户端程序,在linux系统下可通过它远程访问Windows桌面,支持多种版本。rdesktop是sourceforge下支持GPL协议的一个开源项目,采用RDP(Remote
Desktop Protocol,远程桌面协议),几乎可以连接windows的所有版本,诸如NT 4 Terminal Server, 2000, XP, 2003, 2003 R2, Vista, 2008, 7, and 2008 R2等。目前,rdesktop可运行于所有的基于X window平台的Unix系统中,当前稳定版本是1.7.0.
具体使 ...
- 2014-08-18 15:38
- 浏览 360
- 评论(0)
这个问题很简单.只需要将info.php放到/var/www/html里面就可以了.
- 2014-08-18 09:26
- 浏览 855
- 评论(0)
步骤一 关闭ssh的gssapi认证vi /etc/ssh/ssh_config注释掉如下两行
GSSAPIAuthenticationyes
GSSAPIDelegateCredentialsno
步骤二 关闭ssh的UseDNS
vi /etc/ssh/sshd_config
注:ubuntu的sshd_config文件没有UseDNS参数,而据我了解,其它类*NIX、*BSD操作系统的sshd_config都有UseDNS参数,且它们缺省都是"UseDNS yes",那估计ubuntu的sshd_config虽然没有UseDNS,那它缺省也是"U ...
- 2014-07-04 09:04
- 浏览 382
- 评论(0)
出于安全方面考虑MySql-Server 只允许本机(localhost, 127.0.0.1)来连接访问. 这对于 Web-Server 与 MySql-Server 都在同一台服务器上的网站架构来说是没有问题的. 但随着网站流量的增加, 后期服务器架构可能会将 Web-Server 与 MySql-Server 分别 ...
- 2014-06-19 09:25
- 浏览 345
- 评论(0)
Hadoop中可以编写自己的类,用作hadoop job的key或者value类型,自己编写的类要实现接口Writable。
我编写了一个HttpContent类,主要用于保存爬取网页的源码,返回状态和编码格式信息,他在mapper中别实例化保存网页内容,然后传输到reducer中被使用,在编写中遇到了一些问题:
(1)首先是没有编写默认的构造函数类,因为java中的反馈机制需要一个参数为空的默认构造函数,如果没有这个类就不能利用反馈机制实例化这个类。
(2)然后是类型在序列化的时候写入后读取值不正确,一定要统一类型中write(DataOutput out)和readFields(Dat ...
- 2014-06-18 09:29
- 浏览 466
- 评论(0)
应用开发
主要知识点如下:
Configuration类(支持overwrite,variable$)
测试(mock单元测试,本地测试,集群测试)
Tool,ToolRunner
集群测试(package,启动job,JobwebUIfornamenodeandjobtracker)
运程调试器(keep.failed.task.files=true,使用ISolationRunner)
作业调优(HPROF)
MapReduce工作流(oozie)
1.在本地运行测试数据
publicclassMaxTemperatureDriverextendsConfiguredim ...
- 2014-06-18 08:57
- 浏览 536
- 评论(0)
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方。
好了言归正传,简单的说说背景、原理以及需要注意的地方:
1、为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把 ...
- 2014-05-08 01:10
- 浏览 1500
- 评论(0)
LAMP是Linux web服务器组合套装的缩写,分别是Apache+MySQL+PHP。此教程教大家如何在Ubuntu12.04 LTS server 上安装Apache2服务器,包括PHP5(mod_php)+MySQL。
此教程中使用的相关IP等设置,在你的环境中要做相应修改。
1 我们使用root账户进行安装,首先切换到root账户,输入命令:
sudo su
2 安装 MySQL 5
输入命令:
apt-get install mysql-server mysql-client
安装过程中需要设置root账户密码,系统会作以下提示:
New password for t ...
- 2014-04-29 16:49
- 浏览 530
- 评论(0)
2014-4-29 劳动节来临之际,被这节日给坑了,就像cc说的好,别老是YY。今天碰到的问题是当执行完map后,reduce没执行。错误就出在我想的是mpa的输出value是Text,然后在reduce接收输入value是用Text的,而不是用Iterable<Text>,虽然我job里面没有设置combiner,但是是在map后还是会将结果进行合并。略坑。。。
- 2014-04-29 16:01
- 浏览 406
- 评论(0)
一、背景
为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。
推荐阅读:
Hadoop 中利用 MapReduce 读写 MySQL 数据
http://www.linuxidc.com/Linux/2013-07/88117.htm
二、技术细节
1、DBInputFormat(Mysql为例),先创建表:
CREATE TAB ...
- 2014-04-28 09:31
- 浏览 404
- 评论(0)
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。
摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and Bill taketh away.”。不管CPU的主频有多快,我们始终有办法来利用它,而我们也陶醉在机器升级带来的程序性能提高中。
我记着我大二的时候曾经做过一个五子棋的程序,当时的算法就是预先设计一些棋型( ...
- 2014-04-25 17:04
- 浏览 189
- 评论(0)
"不知你是否想过,计算一下在城市中的每台电脑里的文件数加起来的共数有多少?似乎是一个非常不可思议的问题,将会是一个非常庞大的数字,如果用计算机去远程挨个统计一遍数以万计的计算机,首先要去扫描磁盘,然 ...
- 2014-04-25 17:00
- 浏览 456
- 评论(0)
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的 ...
- 2014-04-25 16:19
- 浏览 416
- 评论(0)