AMAZON Redshift(1)Introduction
Python is well used here with SQL.
Normal SQL
select regex_replace(url, ‘(https?)://([^@]*@)?([^:/]*)([/:].*)$)’, ‘\3’) FROM table;
===>
Python and SQL
create function f_hostname(url VARCHAR) returns archer Immutable as
$$ import url parse.urlparse(url).hostname $$
LANGUAGE plpython;
select f_hostname(url) FROM table;
NumPy SciPy: math tool
Pandas: SQL operation on top of SciPy and NumPy
Dateutil and Pytz: Date and Timezone
http://www.numpy.org/
http://scipy.org/about.html
http://pandas.pydata.org/
https://dateutil.readthedocs.org/en/latest/
https://pypi.python.org/pypi/pytz/
Data Warehouse System Architecture
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/c_high_level_system_architecture.html
Industry-standard PostgreSQL JDBC and ODBC driver.
Leader node —> compile codes and distribute the compiled code to the compute nodes, assigns a portion of the data to each compute node
Compute nodes —> 160 GB node
Load data from S3 into Redshift
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/t_Loading-data-from-S3.html
Copy Command to Load the Data
copy <table_name> from ‘s3://<bucket_name>/<object_prefix>'
credentials ‘<aws-auth-args>’;
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/t_loading-tables-from-s3.html
http://docs.aws.amazon.com/zh_cn/datapipeline/latest/DeveloperGuide/dp-copydata-redshift.html
Work on the DB
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/t_deleting_redshift_user_cmd.html
How to Design the Table
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/c_designing-tables-best-practices.html
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/t_Creating_tables.html
How to Load Data
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/c_loading-data-best-practices.html
How to Query Data
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/c_designing-queries-best-practices.html
DataBase Admin’s Command
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/t_querying_redshift_system_tables.html
Table Design
If recent data is queried most frequently, specify the timestamp column as the leading column for the sort key. - timestamp
If you do frequent range filtering or equality filtering on one column, specify that column as the sort key. - range or equality
If you frequently join a table, specify the join column as both the sort key and the distribution key.
References:
http://docs.aws.amazon.com/zh_cn/redshift/latest/dg/c_redshift_system_overview.html
https://aws.amazon.com/cn/documentation/redshift/
分享到:
相关推荐
[Packt Publishing] Amazon Redshift 入门教程 (英文版) [Packt Publishing] Getting Started with Amazon Redshift (E-Book) ☆ 出版信息:☆ [作者信息] Stefan Bauer [出版机构] Packt Publishing [出版日期...
Amazon Redshift是亚马逊推出的一种云数据仓库服务,旨在帮助开发者以较低的成本存储、管理和分析大量的数据集。它采用了列式存储和并行计算技术,允许大规模的数据仓库查询和操作。Amazon Redshift适用于数据仓库和...
Amazon Redshift is a fast, fully managed, petabyte-scale data warehouse service. It provides an excellent approach to analyzing all your data using your existing business intelligence tools. Getting ...
Amazon Redshift是AWS推出的一款针对数据仓库设计的快速、完全托管的数据仓库服务,它能够通过MPP(大规模并行处理)架构提供PB级别的数据存储和查询能力。下面详细介绍Amazon Redshift的相关知识点。 一、Redshift...
Amazon Redshift与Amazon S3之间的数据集成是云数据库管理和大数据分析中的关键环节。Amazon Redshift是一种完全托管的、大规模并行处理(MPP)的关系型数据仓库服务,它旨在高效地处理PB级的数据分析。而Amazon S3...
亚马逊Redshift湖边小屋工作坊 该GitHub项目提供了一系列实验练习,可帮助用户开始使用Amazon Redshift作为湖边房屋建筑的消费平台。 它利用了来自多个位置的出色内容,但主要归功于的内容。 实验室设置 Amazon S3...
基于零管理AWS Lambda的Amazon Redshift数据库加载程序借助此AWS Lambda函数,将文件数据导入Amazon Redshift从未如此简单。 您只需将文件拖放到Amazon S3上的预配置位置,此功能就会自动加载到您的Amazon Redshift...
Amazon Redshift 实用程序Amazon Redshift 是一种快速、完全托管的 PB 级数据仓库解决方案,它使用列式存储来最大限度地减少 IO、提供高数据压缩率和快速性能。 此 GitHub 提供了一系列脚本和实用程序,可帮助您从 ...
本文将深入探讨一个名为“aws-cdk.aws-redshift-1.110.1”的资源,这是一个在PyPI官网下载的压缩包文件,用于在AWS Cloud Development Kit (CDK)中操作和管理Amazon Redshift集群。 首先,AWS CDK是一个开放源代码...
AWS-Amazon-Redshift深入解析,中文版,浅显易懂。 • Redshift简介 • 数据加载的最佳实践 • 查询语句优化的最佳实践 • 表结构设计的最佳实践 • 新特性介绍 • 应用迁移的注意事项 • AWS案例分享
1. **易于连接**:库提供了一个简洁的API,使得建立到Redshift集群的连接变得简单。只需提供必要的连接参数,如主机名、端口、数据库名称、用户名和密码,即可创建连接。 2. **自动重连**:当网络中断或短暂故障时...
- Amazon Redshift - AlaSQL 支持平台: - Mac - Windows - Linux 建造 为了从源代码运行SQL Tab,请执行以下步骤:(如有任何问题,请报告) 必须使用不高于v10的node.js 安装一个JavaScript包管理器 获取代码,...
Redshift是一款高性能的GPU加速渲染器,被广泛应用于电影、电视和广告行业的三维制作中。这个"redshift官方帮助最新打包2.6-3.0.zip"文件包含了Redshift渲染器从版本2.6到3.0的所有官方帮助文档,是学习和了解...
Redshift是亚马逊云服务(AWS)提供的一款大规模并行处理(MPP)的数据仓库服务,适用于大数据分析。它能够处理PB级别的数据,并且支持SQL,使得用户能够利用熟悉的SQL语法进行复杂的数据分析。 `redshift_connector`库...
aws-lambda-redshift-loader 是在 AWS Lambda 上实现的 Amazon Redshift 数据库装载机。有了 AWS Lambda 这个函数,将文件数据传入 Amazon Redshift 会变得相当容易。你只要简单地将文件推到 Amazon S3 的各个位置上...
Amazon Redshift是亚马逊云服务(AWS)提供的一个大规模并行处理(MPP)的数据仓库服务,适用于存储和分析海量数据。pandas_redshift则将流行的Python数据分析库pandas与Redshift的强大功能相结合,使数据科学家和...
Amazon Redshift-基础知识 关于Amazon Redshift基础的简短文章 建造 epub / html:运行build.bat(使用pandoc) mobi:运行epub-to-mobi.bat(使用kindlegen)
带有CMS Open Payments数据集的Amazon Redshift中的Python UDF简介 这是用于AWS大数据博客的样本代码存储库Amazon Redshift中的Python UDF简介以及CMS Open Payments数据集 ##示例概述 Amazon Redshift发布了一项新...
Redshift Spectrum 是 Amazon Redshift 的一个内置功能,可以帮助客户通过 Redshift 直接查询 S3 中的数据。它采用了无服务器架构,客户不需要额外配置或管理任何资源,而只需为 Redshift Spectrum 的用量付费。 ...
Boto3是AWS(Amazon Web Services)官方的Python SDK,用于与各种AWS服务交互,包括Amazon Redshift,一个完全托管的、云原生的数据仓库服务。`mypy_boto3_redshift`扩展了Boto3的功能,特别是在静态类型检查方面,...