- 浏览: 158183 次
- 性别:
- 来自: 厦门
最新评论
-
seandeng888:
xieyuNL 写道601235723 写道 这些好像都太基础 ...
《Java特种兵(上册)》 试读心得 -
seandeng888:
SpringJava 写道不错~看来你已经阅读了一定的源码了, ...
大数据框架hadoop的作业初始化过程(接上编) -
seandeng888:
lvwenwen 写道哥们在hadoop开发? 目前没有 ...
大数据框架hadoop的作业提交过程 -
lvwenwen:
哥们在hadoop开发?
大数据框架hadoop的作业提交过程 -
SpringJava:
不错~看来你已经阅读了一定的源码了,向你学习~~
大数据框架hadoop的作业初始化过程(接上编)
文章列表
spring.jar
是包含有完整发布模块的单个jar 包。但是不包括mock.jar, aspects.jar, spring-portlet.jar, and spring-hibernate2.jar。spring-src.zip
就是所有的源代码压缩包。 除了spring.jar 文件,Spring 还包括有其它21 个独 ...
本人从事JAVA开发也有好几个年头了,学过的技术很多,主流的框架基本上也都用过。前端的HTML、JS、ExtJS、JQuery、dojo等,后台的struts、jsf、spring、hibernate、mybatis,消息队列、分布式缓存等,跟大数据相关的hadoop、hbase、hive、spark ...
本文转自http://storage.chinabyte.com/420/12417420.shtml。
HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型 ...
本文转自http://storage.chinabyte.com/107/12416607.shtml。
Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存
1 倒排索引
1.1 倒排索引
"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。
1.2 应用场景
通常情况下,倒排索引由一个单词(或词组)以及相关的文档列表组成,文档列表中的文档或者是标识文档的ID号,或者是指文档所在位置的URL,如图6.1-1
1 多表关联
1.1 多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。
1.2 应用场景
输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表。
1.3 设计思路
1 单表关联
1.1 单表关联
"单表关联"这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘。
1.2 应用场景
实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。
1 数据排序
1.1 数据排序
对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。
1.2 应用场景
"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。
1.3 设计思路
1 数据去重
1.1 数据去重
对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
1.2 应用场景
统计大数据集上的数据种类个数、从网站日志中计算访问地 ...
本文转自 http://blog.sina.com.cn/s/blog_7eb42b5a0101g0ei.html
大众点评网从2011年中开始使用Hadoop,并专门建立团队。Hadoop主分析集群共有60多个节点、700TB的容量,月运行30多万个Hadoop Job,还有2个HBase线上集群。作者将讲述这 ...
scala入门
SCALA,英文名:Scalable Language;中文名:可伸缩的语言, 是一门多范式的编程语言,一种类似java的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。
1 安装 Scala
这个章节描述了如何安装Scala 的命令行工具, 以便可以尽快让Scala 跑起来。
访问Scala 的官方网站 。要安装Scala
1 前言
如果你想尝试一下不用表格来排版网页,而是用CSS来排版你的网页,也就是常听的用DIV来编排你的网页结构,又或者说你想学习网页标准设计,再或者说你的上司要你改变传统的表格排版方式,提高企业竞争力,那么你一定要接触到的一个知识点就是CSS的盒子模式,这就是DIV排版的核心所在,传统的表格排版是通过大小不一的表格和表格嵌套来定位排版网页内容,改用CSS排版后,就是通过由CSS定义的大小不一的盒子和盒子嵌套来编排网页。因为用这种方式排版的网页代码简洁,更新方便,能兼容更多的浏览器,比如PDA设备也能正常浏览,所以放弃自己之前钟爱的表格排版也是值得的,更重要的是CSS ...
本文翻译自Nathan Marz的博文《You Are a Product》。如有错误,欢迎指出;如需改进,欢迎指点。
有一天,我突然意识到:用“程序员”或“雇员”都不足以描述“我是什么?”。其实我自己本身就是一个产品,当然你也是。如果你想发展你的事业,你需要像处理产品开发问题一样处理你的事业。
你通过出售“自己”以换取各种各样的东西:比如金钱,地位,在自己感兴趣的领域工作,相处融洽的同事,等等。在这篇文章里我将用“获得收入”来表示以上这些东西。请记住获得收入不是仅仅指的是获得金钱。
供应与需求
就像每个产品一样,“你”也有供应和需求之说。供应指 ...
版本显示在各个项目或系统中都有使用到,实现方式也各式各样,接下来了解一下hadoop是如何实现版本显示的逻辑的。首先从使用场景开始。
使用场景
在bin目录下打印系统版本信息。
执行命令
结果
hadoop version
JobTracker是整个MapReduce计算框架中的主服务,相当于集群的“管理者”,负责整个集群的作业控制和资源管理。本文对JobTracker的启动过程及心跳接收与应答两个主要功能进行分析。
1 JobTracker启动过程
1.1 各种线程功能
函数offerService()会启动JobTracker内部几个比较重要的后台服务进程,分别是expireTrackersThread、retireJobsThread