阅读原文请点击:
http://click.aliyun.com/m/19148/
摘要: 看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、数仓?计算效率和经济性表现怎么样? 本文先给出基本结论: OSS是什么? 对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTful API,具备容量和处理的弹性扩展能力。
看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、数仓?计算效率和经济性表现怎么样?
本文先给出基本结论:
OSS是什么?
对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTful API,具备容量和处理的弹性扩展能力。
基于OSS是否可以创建数据表?
既然可以把摄像头推流接到OSS,建表属于小Case了。并且2016年在亦龙大神的帮助下,Hadoop社区在官方版本中支持OSS,开启了阿里云存储与开源融合的新里程碑。
OSS上建表是否易用?
今天为了降低OSS上建表的门槛,日志服务(原SLS)LogHub可以支持OSS上表的实时写入(表类型包括TextFile,列存储Parquet),支持压缩及数据Partition配置。在计算引擎端,我们已经和阿里云(MaxCompute、E-MapReduce)和主流开源计算引擎(Presto等)打通,无缝使用多种计算引擎热插拔对接。
既然可以把数据表直接建在HDFS、MaxCompute(原ODPS)上,选择OSS来存储表数据又是为什么呢?
存储与计算分离的趋势
在2009年做大规模计算的核心词是“Locality”:让计算尽量靠近数据以提升效率。当时一个公认的模型是:构建一个足够大的资源池,把数据和计算融合在里面发挥规模效应。
但最近几年以来,生态和环境都悄然发生了一些变化:
计算模式:全量数据计算模式,逐步被Impala、Presto等更高效计算模式赶上
存储格式:ORC/Parquet/Kudu等列存、索引技术诞生,使得计算不需要Scan大块数据
网络架构:25G网络开始上线,FPGA等技术也加快了网络体验
存储介质:SSD、AliFlash、3D X-Point 大量混合技术使得存储可以“既快又猛”
计算平台:GPU、FGPA、甚至是未来的TPU等改变计算形态
从这些变化使得我们发现:
通过一款机型通吃存储+计算方案,已经演变成存储+计算各自服务化,通过高速网络进行连接的趋势
1
这种方式可以使得存储、计算不用再被”机型“,”机柜“,”电力“等方案束缚,在各自最擅长的领域进行创新。从业界对于”分层“的工作中,我们也看到了这类的尝试:
案例1:Netflix 基于S3解决方案
Netflix是AWS创新代表,特别是他们的大数据业务。根据2016 Re:Invent上Slides描述,Netflix每天新增500 Billion条日志(数据量500 TB)、存量数仓规模 60PB、每天会对其中3PB数据做计算。
在Slides中Netflix谈到:从2014年开始就决定开始摒弃各种系统隔阂,底层使用了统一存储S3,之上构建各种计算引擎系统。事实证明Netflix这一步走得正确,海量的存储与计算能力使得商业的创新得到了充分释放,成为AWS上令人引以为傲的学习榜样。
2
受Netflix启发,AWS 在2016 Re:Invent 上推出了一款新的计算产品Athena:该产品将Presto服务化提供基于各种存储类服务的 Ad-Hoc Query能力。
AWS Athena利用多个可用区(Availability Zones)中的计算资源执行查询,并将S3用作底层数据存储系统,由于数据冗余地存储在多个地点和每个地点的多个设备中,服务具备很高的可用性和可靠性。
案例2:Facebook RocksDB项目
Google开源了Level DB,而Facebook通过改造成RocksDB使它上升到新高度。RocksDB除了对LSM模型的多个优化外,另一个非常吸引人的地方在对存储介质、计算层适配得非常友好,可以充分发挥计算和存储的性能。底层的介质与存储对上层API透明热插拔,是在软件设计层面存储+计算分离的一个优美案例。
3
OSS上建立数仓的优势
优势1:不受限制的存储空间
对于数据仓库来说最重要一点是海量存储,能为计算分析提供大数据吞吐支持。在这个点上OSS是非常合适的。
结合OSS的目录设置,对大规模(百万级别以上)文件做合理划分,并与计算引擎配合拿到更高的计算效率。LogHub投递OSS存储支持Hive-style分区目录,将数据按照日期存储,可以设置多维分区。
举个例子,我们有一个应用叫my-app,为应用创建一个dw项目 my-dw,在项目中创建了一组表,以其中一个表my-table作为例子:表中的数据以时间(天)作为partition(例如date='20170330' 代表当天的数据目录)。
整个数仓的层级结构可以映射为OSS的一个访问路径:
my-app 为 OSS 上bucket名称
my-dw 之后则为数仓的项目名(namespace)
my-table是表名
date=20170330是一维分区
4
优势2:极低的存储成本
OSS 是提供实时数据读写“最便宜”存储产品之一,对于100GB日志数据:
使用列存储编码(以Parquet格式为例),通过snappy压缩后,存储数据量在8 GB左右
以OSS当前官网价格计算,使用OSS存储一个月费用为 8 * 0.148 = 1.184 元
除此之外,OSS有两种根据访问频率可任意转换形态:IA(低频)、Archive(冷备),最低可以降低60%成本。OSS 与 IA,Archive之间数据模型是一致的,数据形态可以非常便捷的转换。
5
优势3:一份数据,对接多种计算引擎
我们可以将数据以一种通用的协议存储(例如textfile,sequence file或parquet等),目前OSS上数据支持如下计算引擎:
开源:Spark、Presto、Druid,Pig,Hive等
阿里云:MaxCompute,E-MapReduce、RDS-PG、Batch Compute等
以上计算引擎和存储之间都是热插拔,可以方便地在不同大小的测试、生产数据集上进行切换组合。
对比与传统数仓方案,数据存储于OSS,计算实现了Schema on Read,使得数据分析的自由度得到了很大提升。
6
除了支持多种计算引擎外,OSS 本身还有Geo-Replication功能,可以在不同Region间准实时进行同步,不把鸡蛋放在一个篮子里,以进一步提升重要数据的安全性。
优势4:在计算效率上比肩HDFS类存储
OSS从API上看起来不像HDFS类存储这么细,性能并不一定好?
这里以一个Map-Reduce作业举例,在作业的执行过程中,OSS会在3个地方被用到:
调度:当查询提交时,需要根据计算数据范围 List OSS目录制定plan,确定多少文件目录参与计算
运行:每个Worker根据plan扫描指定目录下文件,读取并进行自定义计算
结果:当计算完成时,写入OSS(计算中间结果产生的Shuffle文件可以写在本机以优化性能,部分场景下也可以选择使用OSS)
7
可见,对于Ad-Hoc Query类场景,OSS在使用模式上都可以完全胜任。
开始在OSS分析数据
数据写入
LogHub(推荐)
直接将日志以准实时方式写入OSS,支持JSON、Parquet格式,投递规则配置如下:
8
数据在OSS存储如下:
2017-04-18 11:50:39 513.75KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_11_00/log_1492487434507106535_1670221.snappy.parquet
2017-04-18 11:56:01 517.36KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_11_00/log_1492487754196771821_1670280.snappy.parquet
2017-04-18 12:01:31 537.03KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492488089710991745_1670335.snappy.parquet
2017-04-18 12:06:54 512.95KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492488410774368293_1670389.snappy.parquet
2017-04-18 12:22:55 512.95KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492489370787863606_1670558.snappy.parquet
2017-04-18 12:34:21 261.69KB oss://oss-shipper-shenzhen-test/tfs_access_log/updatetime=2017_04_18_12_00/log_1492490057002827204_1670672.snappy.parquet
object list number is: 5451
totalsize is: real:195677878828, format:182.24GB
通过LogHub写入优势:数据接入LogHub多种选择,全托管归档服务,准实时投递,支持异常重试,STS授权。了解OSS投递请参考文档。
OSS API/SDK
使用OSS 各种SDK或API写入,完全自主的写入方式,参考文档。
计算引擎
E-MapReduce/Spark/Hive 用户:参考社区文档。
MaxCompute 用户(ODPS):功能内测中。
PG用户:请联系 铁庵。
Presto用户:Local File模式,参考社区文档。
其它:随时一个Get,数据全部拿走。
阅读原文请点击:
http://click.aliyun.com/m/19148/
分享到:
相关推荐
8. **风险管理**:通过函数计算和表格存储,金融机构可以构建实时的风控引擎,结合用户开户信息、交易详情等数据进行风险评估,防止欺诈交易。 9. **安全与合规**:OSS支持RAM(Resource Access Management)进行...
外加热强制循环蒸发器装配图(CAD).rar
数控车床纵向进给系统设计.zip
j
爬虫 bangumi名称和评论数
基于SpringBoot的垃圾分类回收系统,系统包含两种角色:管理员、用户主要功能如下。 【用户功能】 首页:浏览垃圾分类回收系统信息。 个人中心:管理个人信息,查看历史记录和订单状态。 运输管理:查看运输信息,垃圾回收的时间和地点。 公告管理:阅读系统发布的相关通知和公告。 垃圾回收管理:查看垃圾回收的信息,回收类型和进度。 垃圾出库申请管理:提交和查看垃圾出库申请的状态。 【管理员功能】 首页:查看垃圾分类回收系统。 个人中心:管理个人信息。 管理员管理:审核和管理注册管理员用户的信息。 用户管理:审核和管理注册用户的信息。 运输管理:监管和管理系统中的运输信息。 公告管理:发布、编辑和删除系统的通知和公告。 垃圾回收管理:监管和管理垃圾回收的信息。 垃圾出库申请管理:审批和管理用户提交的垃圾出库申请。 基础数据管理:管理系统的基础数据,运输类型、公告类型和垃圾回收类型。 二、项目技术 编程语言:Java 数据库:MySQL 项目管理工具:Maven 前端技术:Vue 后端技术:SpringBoot 三、运行环境 操作系统:Windows、macOS都可以 JDK版本:JDK1.8以上都可以 开发工具:IDEA、Ecplise、Myecplise都可以 数据库: MySQL5.7以上都可以 Maven:任意版本都可以
内容概要:本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业(Homework#1)。作业包含四道编程题和三道手写题,旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题;手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外,还提供了编程技巧和注意事项,如避免延迟提交、正确引用资料、处理大输入文件等。 适合人群:具备一定编程基础的本科生或研究生,特别是修读过或正在修读算法设计与分析相关课程的学生。 使用场景及目标:①帮助学生巩固课堂所学的算法理论知识;②通过实际编程练习提高解决复杂问题的能力;③为后续更深入的学习和研究打下坚实的基础。 其他说明:此作业强调团队合作和个人独立思考相结合的重要性,鼓励学生在讨论后用自己的语言表达解决方案,并注明参考资料。对于编程题,特别提醒学生注意输入文件可能较大,建议采取适当的优化措施以确保程序运行效率。
基于SpringBoot的铁路订票管理系统,系统包含两种角色:管理员、用户主要功能如下。 【用户功能】 首页:浏览铁路订票管理系统的主要信息。 火车信息:查看火车的相关信息,包括车次、出发地、目的地和票价等。 公告资讯:阅读系统发布的相关通知和资讯。 后台管理:进行系统首页、个人中心、车票预订管理、车票退票管理等操作。 个人中心:管理个人信息,查看订单历史记录等。 【管理员功能】 首页:查看铁路订票管理系统。 个人中心:修改密码、管理个人信息。 用户管理:审核和管理注册用户的信息。 火车类型管理:管理系统中的火车类型信息。 火车信息管理:监管和管理系统中的火车信息,添加、编辑、删除等。 车票预订管理:处理用户的车票预订请求。 车票退票管理:处理用户的车票退票请求。 系统管理:管理系统的基本设置,公告资讯、关于我们、系统简介和轮播图管理。 二、项目技术 编程语言:Java 数据库:MySQL 项目管理工具:Maven 前端技术:Vue 后端技术:SpringBoot 三、运行环境 操作系统:Windows、macOS都可以 JDK版本:JDK1.8以上都可以 开发工具:IDEA、Ecplise、Myecplise都可以 数据库: MySQL5.7以上都可以 Maven:任意版本都可以
塑料架注射模具设计.rar
基于json文件数据驱动的的接口测试框架
铁丝缠绕包装机设计-缠绕盘设计.rar
linux
圆柱体相贯线焊接专机工作台设计.rar
硬币分拣机设计.rar
内容概要:本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训,指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验,强调了用户需求的重要性。大多数用户并非机器学习专家,期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机(SVM)的实际应用案例,包括数据预处理(如特征缩放)、参数选择等步骤,并提出了为初学者设计的简易流程。此外,作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题,强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。 适合人群:对机器学习软件开发感兴趣的科研人员、工程师及从业者,尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。 使用场景及目标:①帮助非机器学习专家的用户更好地理解和使用机器学习方法;②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题;③促进学术界与工业界之间的合作,推动高质量机器学习软件的发展。 其他说明:本文不仅提供了具体的开发经验和技巧,还呼吁建立激励机制,鼓励更多研究人员投入到机器学习软件的开发中,以解决当前存在的研究与应用脱节的问题。
一天入门pandas代码
该资源为joblib-0.12.0-py2.py3-none-any.whl,欢迎下载使用哦!
内容概要:本文档《xtuner_requirements.txt》列出了用于支持特定项目(可能是机器学习或深度学习项目)运行所需的所有Python包及其版本。其中不仅包括常见的数据处理和科学计算库如numpy、pandas,还包括了与深度学习密切相关的库如torch、transformers等。值得注意的是,文档中还特别指定了NVIDIA CUDA相关组件的具体版本,确保了GPU加速环境的一致性和兼容性。此外,文档中也包含了从GitHub直接安装的xtuner库,明确了具体的提交哈希值,保证了代码来源的精确性。 适合人群:对机器学习、深度学习领域有一定了解并需要搭建相应开发环境的研发人员,尤其是那些希望复现特定实验结果或基于已有模型进行二次开发的研究者和技术爱好者。 使用场景及目标:①帮助开发者快速搭建完整的开发环境,确保所有依赖项正确无误;②为研究人员提供一个稳定的实验平台,以便于重复实验和验证结果;③作为项目协作的基础,确保团队成员之间的环境一致性,减少因环境差异带来的问题。 阅读建议:由于该文档主要为技术性依赖列表,在阅读时应重点关注所需安装的库及其版本号,特别是CUDA相关组件和自定义库(如xtuner)的安装方式。对于非技术人员而言,可能需要额外查阅相关资料来理解各库的作用。同时,在实际操作过程中,建议按照文档中的顺序逐一安装依赖,避免版本冲突等问题的发生。
j