- 浏览: 4995 次
- 性别:
- 来自: 上海
最新评论
文章列表
Python 科学计算库 Numpy 小结
(本文来自本人公众号)
NumPy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
kafka原理解析
//更多文章请访问主页:https://blog.csdn.net/yuyuyuxiaolei
Apache的Kafka™是一个分布式流平台(a distributed streaming platform)。这到底意味着什么?
我们认为,一个流处理平台应该具有三个关键能力:
它可以让你发布和订阅记录流。在这方面,它类似于一个消息队列或企业消息系统。
它可以让你持久化收到的记录流,从而具有容错能力。
它可以让你处理收到的记录流。
Kafka擅长哪些方面?
...
一, 基本了解
1.Hive的简介
-1. 由Facebook开源用于解决海量结构化日志的数据统计,后称为Apache Hive为一个开源项目。
-2. Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。一 ...
在Hadoop集群环境中,其有两个重要和关键的系统,分别是HDFS和MapReduce。 其中HDFS是Hadoop的分布式存储的策略和核心,它实现了将数据分块,并且存储到多个DataNode上。 mapreduce的简单的可主要分为以下几个阶段:
FileInputFormat中的input路径,读取进入输入文件,该输入文件会经过默认的算法和策略进行split形成分片,形成分片后,将会传入到mapper
默认情况下,产生的InputSplit作为了mapper的输入,而该输入也是一种键值对的形式,其key类型为LongWritable,为一个可写的长整型,并且其代表的是,当前分片在原始 ...
在这一节中,笔者主要向大家介绍了该配置文档中,所用到的Linux命令和Linux的帮助。注:配置文档详细截图请下载附件查看。终端提示信息在Linux中,终端的每一行都有提示信息,其包含了当前终端登录的用户,当前登录的主机 ...