转载请标明出处: http://fuliang.iteye.com/blog/1136669
第一部分 Hadoop 分布式的编程框架
第一章 Hadoop 简介
1、philosophy: move-code-to-data,适合数据密集性应用。
2、SQL database VS Hadoop:
1) SCALE-OUT INSTEAD VS SCALE-UP
2) Key/value对 VS 关系表:无结构、半结构数据 VS 结构化的数据
3)函数式编程(MapReduce) VS 声明式编程(SQL):hive can map the sql to the job
4)离线批处理 VS 在线事务处理
3、理解MapReduce
1)2个阶段:
map:转换+过滤数据: <k1, v1> -> list(<k2, v2>)
reduce:<k2, list(v2)> -> list(<k3, v3>)
map和reduce之间按照key进行group,hadoop负责处理、只需要写map和reduce程序
2)word count 例子
第二章 Starting Hadoop
1、Blocks of Hadoop:
NameNode: Master, bookkeeper of the HDFS,keeps track of how your fi les are broken down into file blocks, which nodes store those blocks, and the overall health of the distributed filesystem
内存、I/O密集型。单点,但SNN可以作为master的备用
DataNode: Slave of the HDFS, 存储数据的节点、冗余备份、向NameNode报告本地数据的变化。
Secondary NameNode(SNN):作为master的备用节点、获得NameNode的HDFS元数据的快照、集群的配置
JobTracker:分配提供的job成为多个task,监控各个task,检测各个task的心跳,重启动失败的任务。计算中的master
TaskTracker:负责执行JobTracker分配的单个任务,像JobTracker发送心跳信息。每个DN节点一个TaskTracker,但它可以创建多个jvm实例,并行的处理多个map和reduce的任务。
计算中的slave
2、安装Hadoop
三种模式: Local (standalone) mode、Pseudo-distributed mode、Fully distributed mode
3、Web-based cluster UI查看节点和job的信息
第三章 Hadoop各个组件
这章主要从程序员的角度介绍了Hadoop的计算框架。
3.1 在HDFS文件系统下工作
HDFS是为分布式计算框架设计的大规模的分布式数据处理而设计的。
Hadoop shell提供了很多类似Unix的命令行工具,是HDFS系统的主要接口。
Hadoop也提供了HDFS的编程接口。
3.1.1基本的文件命令
基本形式: hadoop fs -cmd <args>
hadoop fs -ls
hadoop fs -lsr #相当于linux 的ls -r
hadoop fs -put example.txt . #将example.txt从本地文件系统copy到HDFS上。
hadoop fs -get example.txt . #从HDFS将example get到本地
hadoop fs -cat example.txt #相当于linux的cat
hadoop fs -tail example.txt #linux tail
可以结合Unix管道:
hadoop fs -cat example.txt | head -n 10
hadoop fs -rm example.txt #linux rm
查看帮助,比如ls的帮助:
hadoop fs -help ls
可以使用URI来制定精确的文件和目录位置:
hadoop fs -cat hdfs://localhost:9000/user/chunk/example.txt
如果处理本地文件系统,那么可以通过配置fs.default.name来配置默认的file://scheme部分。
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
这样就可以直接hadoop fs -cat /user/chunk/example.txt
3.1.2编程的方式读写HDFS
Java编程方式操作HDFS,主要在org.apache.hadoop.fs包下面。Hadoop文件操作主要包括:
打开、读、写、关闭,不仅可以操作HDFS,也可以操作本地普通的文件系统。
FileSystem:是文件系统的交互的一个抽象类,有很多具体的子类来处理HDFS和本地文件系统。可以使用:FileSystem.get(Configuration conf)这个工厂来创建期望的实例。
Configuration:只有key/value配置参数的类。默认的配置是基于HDFS系统的资源配置的。
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
FileSystem.getLocal(Configuration conf)可以创建一个针对本地的文件系统。
Path: 文件和目录的名字
FileStatus: 文件和目录的元数据信息
FileSystem local = FileSystem.getLocal(conf);
Path inputDir = new Path(args[0]);
FileStatus[] inputFiles = local.listStatus(inputDir);
FSDataInputStream:
FSDataInputStream in = local.open(inputFiles[i].getPath());
byte buffer[] = new byte[256];
int bytesRead = 0;
while( (bytesRead = in.read(buffer)) > 0 ){
//...
}
in.close();
FSDataInputStream是java DataInputStream的子类,支持随机访问.
FSDataOutputStream:与FSDataInputStream相对应的输出流:
Path hdfsFile = new Path(args[1]);
FSDataOutputStream out = hdfs.create(hdfsFile);
out.write(buffer,o,bytesRead);
out.close();
3.2 一个MapReduce程序剖析
Map Reduce数据流:
3.2.1 Hadoop数据类型
MapReduce的key,value不能是普通的class,它需要key/value实现序列化的方法,
key还需要具有可比较性。所以MapReduce对基本类型进行了封装。
一般key/value会实现WritableComparable<T>接口,value会Writable接口。
Hadoop预定义了一些对基本类型封装的类型:BooleanWritable,ByteWritable,
DoubleWritable,FloatWritable,IntWritable,LongWritable,Text,NullWritable。
你可以自己定义类型,实现Writable或者WritableComparable接口。
3.2.2 Mapper
作为一个Mapper,一般实现了Mapper接口并且继承了MapReduceBase类。MapReduceBase从名字可以看出,作为Mapper和Reducer的基类。
有两个方法作为构造和析构:
void configure(JobConf job) 在数据处理之前调用,加载配置项
void close() 在map任务结束调用,进行资源回收,比如数据库连接、打开文件关闭。
Mapper接口负责数据处理阶段,他有一个map方法,来处理key/value对:
void map(K1 key, V1 value, OutputCollector<K2,V2> output,Reporter reporter)
throws IOException
这个方法给定输入(k1,v1)得到list(k2,v2)
OutputCollector接受mapper过程的结果,Reporter记录了任务进度的相关信息。
Hadoop预定义了一些Mapper:
IdentityMapper<K,V>: 实现了Mapper<K,V,K,V> 将输入直接映射为输出
InverseMapper<K,V>:实现了Mapper<K,V,V,K> 逆置key/value对
RegexMapper<K>: 实现了Mapper<K,Text,Text,LongWritable>,对匹配的项生成(match,1)对
TokenCount<K>: 实现了Mapper<K,Text,Text,LongWritable>,生成(token,1)对
3.2.3 Reducer
Reducer和Mapper一样都继承了MapReduceBase类,同时还实现了Reducer接口,它包含了
单个方法:
void reduce(K2 key,Iterator<V2> values,OutputCollector<K3,V3> output,
Reporter reporter) throws IOException
Reducer接受到各个mapper的输出,将key/value对按照key进行排序然后按照key进行分组。
然后调用reduce函数。OutputCollection接收reduce过程的输出,并将输出写入文件中。
Reporter记录了reducer任务的进度的额外信息。
Hadoop默认实现了一些Reducer:
IdentityReducer<K,V>:实现了Reducer<K,V,K,V> 将输入直接映射为输出。
LongSumReducer<K>: 实现了Reducer<K,LongWritable,K,LongWritable>,计算出一个key所有value的和。
3.2.4 划分--将Mapper的输出重定向
一个常见的误解是,MapReduce程序只有一个Reducer。
有多个Reducer就需要将mapper的输出正确的发送的某个Reducer上。默认的是将key进行hash
然后决定输出到哪个Reducer上,Hadoop提供了HashPartitioner类。
有时候我们需要自定义Partitioner,需要实现configure() 和
getPartition()方法,configure根据hadoop job的配置来配置partitioner,
getPartition返回分配到的reducer的号,大小从0到reducer数。
比如分析航线信息,计算从离开飞机场乘客的数量。
引用
(San Francisco, Los Angeles) Chuck Lam
(San Francisco, Dallas) James Warren
...
我们实现EdgePartitioner:
public class EdgePartitioner implements Partitioner<Edge, Writable>
{
@Override
public int getPartition(Edge key, Writable value, int numPartitions)
{
return new Long(key.getDepartureNode()).hashCode() % numPartitions;
}
@Override
public void confi gure(JobConf conf) { }
}
3.2.5 组合--本地reducer
很多MapReducer程序,在分发mapper结果之前希望进行一次本地的Reducer操作。
比如WordCount的例子,如果一个job处理一个文档包含 the 574词,存储和shuffle (the,574)一次要比多次(the,1)要高效。
3.2.6 Word Counting和预定义的Mapper和Reducer类
使用hadoop预定义的TokenCountMapper和LongSummReducer类重写r了WordCount例子。
3.3 读和写
MapReduce需要读取输入的数据,写输出的数据,所以文件的格式需要关注。hadoop提供了
灵活的处理各种数据格式的方法。
每个split大小要合适,既要足够小,提供并行处理能力,又不能太小,以至于启动和停止的时间占了大部分。
Hadoop的FSDataInputStream具有随机读的能力,所以能够有效的定位到文件split的位置。
Hadoop提供一些数据格式,你还可以自定义格式。
3.3.1 输入格式:
InputFormat接口:所有的实现输入文件split up供hadoop读取实现的接口。
TextInputFormat: 默认的InputFormat实现类。这对于没有定义key的,但是想一行一行处理的数据来说非常有用。每一行一条记录
key: 当前行的byte offset, LongWritable
value:当前行,Text。
KeyValueTextInputFormat: 每行一条记录,第一个分隔符将一行分开,
key: 分割符之前的部分,Text
value: 分割符之后的部分,Text
SequenceFileInputFormat<K,V>: 一种对于一个MapReduce job是另一个MapReduce输入的一种优化的格式:
key: K用户定义
value: V用户自定义
NLineInputFormat: 和TextInputFormat类似,每个split保证含有N行,mapred.line.input.format.linespermap属性,默认是1,设置了N
key: LongWritable
value: Text
你可以在配置输入使用的格式:
conf.setInputFormat(KeyValueTextInputFormat.class);
创建自定义的输入格式:
有时候hadoop提供的标准的几个输入格式不能满足要求,需要自定义。InputFormat接口
包含了两个方法:
public interface InputFormat<K,V>{
InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
RecordReader<K,V> getRecordReader(InputSplit split,
JobConf job,
Reporter reporter) throws IOException;
}
这两个方法提供的功能:
1.将输入数据分成输入的split,每一个map任务处理一个split
2.提供迭代给定split的每个记录的能力,并且能够将每个记录解析成预定义类型的key和value。
一般继承FileInputFormat,它实现了getSplits方法,但没有实现getRecordReader,FileInputFormat还提供了一些protected的方法,供子类覆写。
比如isSplitable(FileSystem fs, Path filename),它检查是否可以将一个文件分块。
有些压缩文件和其他的文件需要将一个文件视为原子记录,那么可以覆写,返回false。
使用了FileInputFormat之后,需要关注的就是自定义RecordReader:
public interface RecordReader<K,V>{
boolean next(K key, V value) throws IOException;
K createKey();
V createValue();
long getPos() throws IOException;
void close() throws IOException;
float getProgress() throws IOException;
}
Hadoop有一些实现好的RecordReader,比如LineRecordReader<LongWritable,Text>
它在TextInputFormat被使用,KeyValueLineRecordReader在KeyValueTextInputFormat被使用。
3.3.2 输出格式。
和InputFormat对应,输出有OutputFormat类,输出没有splits,每个reducer写入自己的文件。
Hadoop提供了一些预定义的输出格式实现,可以通过JobConf的setOutputFormat来指定。
TextOutputFormat<K,V> 将每个记录写成一行,key和value用\t分割,可以在mapred.textoutputformat.separator中指定分隔符。
SequenceFileOutputFormat<K,V> 将key/value写入hadoop的sequence 文件格式。和
SequenceFileInputFormat对应。
NullOutputFormat<K,V> 不输出。
分享到:
相关推荐
内容概要:本文详细介绍了如何利用Matlab构建、优化和应用决策分类树。首先,讲解了数据准备阶段,将数据与程序分离,确保灵活性。接着,通过具体实例展示了如何使用Matlab内置函数如fitctree快速构建决策树模型,并通过可视化工具直观呈现决策树结构。针对可能出现的过拟合问题,提出了基于成本复杂度的剪枝方法,以提高模型的泛化能力。此外,还分享了一些实用技巧,如处理连续特征、保存模型、并行计算等,帮助用户更好地理解和应用决策树。 适合人群:具有一定编程基础的数据分析师、机器学习爱好者及科研工作者。 使用场景及目标:适用于需要进行数据分类任务的场景,特别是当需要解释性强的模型时。主要目标是教会读者如何在Matlab环境中高效地构建和优化决策分类树,从而应用于实际项目中。 其他说明:文中不仅提供了完整的代码示例,还强调了代码模块化的重要性,便于后续维护和扩展。同时,对于初学者来说,建议从简单的鸢尾花数据集开始练习,逐步掌握决策树的各项技能。
《营销调研》第7章-探索性调研数据采集.pptx
Assignment1_search_final(1).ipynb
美团优惠券小程序带举牌小人带菜谱+流量主模式,挺多外卖小程序的,但是都没有搭建教程 搭建: 1、下载源码,去微信公众平台注册自己的账号 2、解压到桌面 3、打开微信开发者工具添加小程序-把解压的源码添加进去-appid改成自己小程序的 4、在pages/index/index.js文件搜流量主广告改成自己的广告ID 5、到微信公众平台登陆自己的小程序-开发管理-开发设置-服务器域名修改成
《计算机录入技术》第十八章-常用外文输入法.pptx
基于Andorid的跨屏拖动应用设计实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。
《网站建设与维护》项目4-在线购物商城用户管理功能.pptx
区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730
《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx
《移动通信(第4版)》第5章-组网技术.ppt
ABB机器人基础.pdf
《综合布线施工技术》第9章-综合布线实训指导.ppt
很不错的一套站群系统源码,后台配置采集节点,输入目标站地址即可全自动智能转换自动全站采集!支持 https、支持 POST 获取、支持搜索、支持 cookie、支持代理、支持破解防盗链、支持破解防采集 全自动分析,内外链接自动转换、图片地址、css、js,自动分析 CSS 内的图片使得页面风格不丢失: 广告标签,方便在规则里直接替换广告代码 支持自定义标签,标签可自定义内容、自由截取、内容正则截取。可以放在模板里,也可以在规则里替换 支持自定义模板,可使用标签 diy 个性模板,真正做到内容上移花接木 调试模式,可观察采集性能,便于发现和解决各种错误 多条采集规则一键切换,支持导入导出 内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等 IP 屏蔽功能,屏蔽想要屏蔽 IP 地址让它无法访问 ****高级功能*****· url 过滤功能,可过滤屏蔽不采集指定链接· 伪原创,近义词替换有利于 seo· 伪静态,url 伪静态化,有利于 seo· 自动缓存自动更新,可设置缓存时间达到自动更新,css 缓存· 支持演示有阿三源码简繁体互转· 代理 IP、伪造 IP、随机 IP、伪造 user-agent、伪造 referer 来路、自定义 cookie,以便应对防采集措施· url 地址加密转换,个性化 url,让你的 url 地址与众不同· 关键词内链功能· 还有更多功能等你发现…… 程序使用非常简单,仅需在后台输入一个域名即可建站,不限子域名,站群利器,无授权,无绑定限制,使用后台功能可对页面进行自定义修改,在程序后台开启生 成功能,只要访问页面就会生成一个本地文件。当用户再次访问的时候就直接访问网站本地的页面,所以目标站点无法访问了也没关系,我们的站点依然可以访问, 支持伪静态、伪原创、生成静态文件、自定义替换、广告管理、友情链接管理、自动下载 CSS 内的图。
【自然语言处理】文本分类方法综述:从基础模型到深度学习的情感分析系统设计
基于Andorid的下拉浏览应用设计实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。
内容概要:本文详细介绍了一个原创的P2插电式混合动力系统Simulink模型,该模型基于逻辑门限值控制策略,涵盖了多个关键模块如工况输入、驾驶员模型、发动机模型、电机模型、制动能量回收模型、转矩分配模型、运行模式切换模型、档位切换模型以及纵向动力学模型。模型支持多种标准工况(WLTC、UDDS、EUDC、NEDC)和自定义工况,并展示了丰富的仿真结果,包括发动机和电机转矩变化、工作模式切换、档位变化、电池SOC变化、燃油消耗量、速度跟随和最大爬坡度等。此外,文章还深入探讨了逻辑门限值控制策略的具体实现及其效果,提供了详细的代码示例和技术细节。 适合人群:汽车工程专业学生、研究人员、混动汽车开发者及爱好者。 使用场景及目标:①用于教学和科研,帮助理解和掌握P2混动系统的原理和控制策略;②作为开发工具,辅助设计和优化混动汽车控制系统;③提供仿真平台,评估不同工况下的混动系统性能。 其他说明:文中不仅介绍了模型的整体架构和各模块的功能,还分享了许多实用的调试技巧和优化方法,使读者能够更好地理解和应用该模型。
内容概要:本文详细介绍了基于ADMM(交替方向乘子法)算法在电力系统分布式调度中的应用,特别是并行(Jacobi)和串行(Gauss-Seidel)两种不同更新模式的实现。文中通过MATLAB代码展示了这两种模式的具体实现方法,并比较了它们的优劣。并行模式适用于多核计算环境,能够充分利用硬件资源,尽管迭代次数较多,但总体计算时间较短;串行模式则由于“接力式”更新机制,通常收敛更快,但在计算资源有限的情况下可能会形成瓶颈。此外,文章还讨论了惩罚系数rho的自适应调整策略以及在电-气耦合系统优化中的应用实例。 适合人群:从事电力系统优化、分布式计算研究的专业人士,尤其是有一定MATLAB编程基础的研究人员和技术人员。 使用场景及目标:①理解和实现ADMM算法在电力系统分布式调度中的应用;②评估并行和串行模式在不同应用场景下的性能表现;③掌握惩罚系数rho的自适应调整技巧,提高算法收敛速度和稳定性。 其他说明:文章提供了详细的MATLAB代码示例,帮助读者更好地理解和实践ADMM算法。同时,强调了在实际工程应用中需要注意的关键技术和优化策略。
内容概要:本文深入研究了交错并联Buck变换器的工作原理、性能优势及其具体实现。文章首先介绍了交错并联Buck变换器相较于传统Buck变换器的优势,包括减小输出电流和电压纹波、降低开关管和二极管的电流应力、减小输出滤波电容容量等。接着,文章详细展示了如何通过MATLAB/Simulink建立该变换器的仿真模型,包括参数设置、电路元件添加、PWM信号生成及连接、电压电流测量模块的添加等。此外,还探讨了PID控制器的设计与实现,通过理论分析和仿真验证了其有效性。最后,文章通过多个仿真实验验证了交错并联Buck变换器在纹波性能、器件应力等方面的优势,并分析了不同控制策略的效果,如P、PI、PID控制等。 适合人群:具备一定电力电子基础,对DC-DC变换器特别是交错并联Buck变换器感兴趣的工程师和技术人员。 使用场景及目标:①理解交错并联Buck变换器的工作原理及其相对于传统Buck变换器的优势;②掌握使用MATLAB/Simulink搭建交错并联Buck变换器仿真模型的方法;③学习PID控制器的设计与实现,了解其在电源系统中的应用;④通过仿真实验验证交错并联Buck变换器的性能,评估不同控制策略的效果。 其他说明:本文不仅提供了详细的理论分析,还给出了大量可运行的MATLAB代码,帮助读者更好地理解和实践交错并联Buck变换器的设计与实现。同时,通过对不同控制策略的对比分析,为实际工程应用提供了有价值的参考。
《综合布线施工技术》第8章-综合布线工程案例.ppt
内容概要:本文详细介绍了基于STM32F103C8T6的K型热电偶温度控制仪的设计与实现。硬件部分涵盖了热电偶采集电路、OLED显示模块、蜂鸣器电路、风扇控制电路以及EEPROM存储模块。软件部分则涉及ADC配置、OLED刷新、PID控温算法、EEPROM参数存储、风扇PWM控制等多个方面的具体实现。文中不仅提供了详细的代码示例,还分享了许多调试经验和注意事项,如冷端补偿、DMA传输优化、I2C时钟配置、PWM频率选择等。 适合人群:具有一定嵌入式系统开发经验的工程师和技术爱好者。 使用场景及目标:适用于需要进行温度监测与控制的应用场景,如工业自动化、实验室设备等。目标是帮助读者掌握STM32F103C8T6在温度控制领域的应用技巧,提升硬件设计和软件编程能力。 其他说明:本文提供的工程文件包含Altium Designer的原理图PCB文件,便于二次开发。此外,文中还提到了一些扩展功能,如加入Modbus通信协议,供有兴趣的读者进一步探索。