最新文章列表

【赵强老师】Kafka的持久化

一、Kafka持久化概述 Kakfa 依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢,基于文件系统的架构能否提供优异的性能?实际上 ...
collen7788 评论(0) 有448人浏览 2020-06-22 18:27

【赵强老师】Kafka的体系架构

一、什么是Kafka? 数据工程中最具挑战性的部分之一是如何从不同点收集和传输大量数据到分布式系统进行处理和分析。需要通过消息队列正确地分离大量数据,因为如果一部分数据无法传送,则可以在系统恢复时传输和分析其他数据。有两种消息排队,对于上述目的,它们都是可靠的和异步的。点对点(Point to point)和发布者——订阅者(publisher-subscriber)。下图展示了一个典型的 ...
collen7788 评论(0) 有402人浏览 2020-05-25 10:19

流式大数据实时处理—技术、平台及应用

编者注:陈纯,计算机应用专家,浙江大学计算机科学与技术学院教授,中国工程院院士。是国家教委“跨世纪优秀人才培养计划”首批入选专家,第三届中国青年科技奖获得者。目前是国家列车智能化工程技术研究中心主任,国务院学位委员会学科评议组成员。陈纯教授长期从事计算机应用领域的前沿研究工作,在著名国际学术期刊和会议发表论文160多篇,曾获国家技术发明奖二等奖1项,国家科技进步奖二等奖2项,国家科技进步三等奖1项 ...
数控小J 评论(0) 有4413人浏览 2016-10-24 13:26

SparkSQL中DataFrame registerTempTable源码浅析

dataFrame.registerTempTable(tableName);  最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame ...
zhao_rock 评论(0) 有7151人浏览 2015-10-09 13:56

Storm中文官方文档翻译计划(2) ——消息处理保证

Storm中文官方文档翻译计划(2) ——消息处理保证通     Strom保证来自spout的每一个消息都会被完全处理。本文描述Storm是如何做到这个保证的,以及作为用户需要干些什么从而受益于Storm的可靠性能力。     啥玩意(What does it mean for a message to be "fully processed")     来自于spout的 ...
powersoft 评论(0) 有1950人浏览 2015-04-08 11:42

Storm中文官方文档翻译计划(1) ——从入门到精通

Storm中文官方文档翻译计划(1) ——从入门到精通     Storm是一个分布式实时计算系统。就像Hadoop提供一组通用原语来进行批量处理(batch processing)一样,Storm也提供了一组通用原语来进行实时计算(realtime computation)。Storm非常简单,能用于任意编程语言,被很多大的公司采用,并且使用过程中乐趣多多。     本教程中,你会学习如何创建S ...
powersoft 评论(0) 有4074人浏览 2015-04-01 22:31

storm性能测试文档

Storm性能测试方案与结果 1. 目的 测试twitter storm的运行性能以及数据处理的延迟。 2. 环境 2.1服务器A Cpu型号 E3-1230 V2 Cpu核数 8 Cpu主频 3.30GHZ Cpu MHZ 1600 内存 8G 网卡 千兆 带宽 千兆 IP hostname Node0 service Nimbus,ui,supervisor 2.2服务器B Cpu型号 E5 ...
jandyfish 评论(2) 有2844人浏览 2014-04-23 16:37

Storm流式实时计算开源框架(三)

      本文讲述Twitter Storm安装配置,也作为学习笔记。 storm的官方安装说明(e文):https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster 。 storm的安 ...
zhouwei064 评论(0) 有4305人浏览 2013-02-02 15:52

Storm流式实时计算开源框架(二)

    由于设备有限,采用虚拟机实现Storm单机版环境安装,以下是对自己安装过程的记录,以供他人参考。准备工作如下:   1.主机基本信息   2.虚拟机软件   实验中的虚拟机软件为VMware-workstation-full-8.0.0-471780.exe。   3.虚拟操作系统CentOS配置   镜像文件为CentOS-5.3-i386-bin-DVD.is ...
zhouwei064 评论(0) 有1180人浏览 2013-02-02 14:54

Storm流式实时计算开源框架(一)

      本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”
zhouwei064 评论(0) 有1406人浏览 2013-02-02 14:37

Jubatus: 分布式在线机器学习框架

  Jubatus http://jubat.us/en/overview.html 是一个面向大数据数据流的分布式在线机器学习的开源框架,和storm有些类似,但是从介绍上来看,它提供了更多的功能。   Jubatus认为未来的数据分析平台应该同时向三个方向展开:处理更大的数据,深层次的分析和实时处理;而当前还没有一种能够处理不断生成的流式大数据的水平可扩展的分布式架构。Hadoop的mapred ...
xuwenq 评论(0) 有2708人浏览 2012-10-22 10:01

Twitter Storm中Topology的状态

Twitter Storm中Topology的状态 状态转换如下,Topology 的持久化状态包括: active, inactive, killed, rebalancing 四个状态。 代码上看到每种状态都可以转换成一些持久化 ( 写入到 zk 中的状态 ) 或者中间状态。 (defn state-transitions [nimbus storm-id status] {:a ...
zhou85xin 评论(2) 有5590人浏览 2012-05-15 15:05

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics