Infobright里面支持所有的MySQL原有的数据类型。其中Integer类型比其他数据类型更加高效。尽可能使用以下的数据类型:
TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT
DECIMAL(尽量减少小数点位数)
DATE ,TIME
效率比较低的、不推荐使用的数据类型有:
BINARY VARBINARY
FLOAT
DOUBLE
VARCHAR
TINYTEXT TEXT
Infobright数据类型使用的一些经验和注意点:
(1)Infobright的数值类型的范围和MySQL有点不一样,比如Infobright的Int的最小值是-2147483647,而MySQl的Int最小值应该是-2147483648。其他的数值类型都存在这样的问题。
(2)能够使用小数据类型就使用小数据类型,比如能够使用SMALLINT就不适用INT,这一点上Infobright和MySQL保持一致。
(3)避免效率低的数据类型,像TEXT之类能不用就不用,像FLOAT尽量用DECIMAL代替,但是需要权衡毕竟DECIMAL会损失精度。
(4)尽量少用VARCHAR,在MySQL里面动态的Varchar性能就不强,所以尽量避免VARCHAR。如果适合的话可以选择把VARCHAR改成CHAR存储甚至专程INTEGER类型。VARCHAR的优势在于分配空间的长度可变,既然Infobright具有那么优秀的压缩性能,个人认为完全可以把VARCHAR转成CHAR。CHAR会具有更好的查询和压缩性能。
(5)能够使用INT的情况尽量使用INT,很多时候甚至可以把一些CHAR类型的数据往整型转化。比如搜索日志里面的客户永久id、客户id等等数据就可以用BIGINT存储而不用CHAR存储。其实把时间分割成year、month、day三列存储也是很好的选择。在我能见到的系统里面时间基本上是使用频率最高的字段,提高时间字段的查询性能显然是非常重要的。当然这个还是要根据系统的具体情况,做数据分析时有时候很需要MySQL的那些时间函数。
(6)varchar和char字段还可以使用comment lookup,comment lookup能够显著地提高压缩比率和查询性能。
转自:http://www.cnblogs.com/inmanhust/archive/2010/05/08/1730368.html
相关推荐
在“mysql.rar_infobright”这个压缩包中,很可能是包含了与MySQL数据库和Infobright数据仓库相关的配置文件、脚本、或者可能是数据库备份文件。这些文件可能包括: - 数据库的结构定义(如CREATE TABLE语句) - ...
Infobright是一款高性能的列式数据库系统,尤其适合大数据分析场景。其核心优势在于其独特的数据存储和查询优化机制,这使得它在处理大规模数据分析时能展现出极高的性能。 Infobright的架构基于MySQL,但采用了...
从 MySQL 迁移到 Infobright 企业版的过程主要包括以下几个方面:选择合适的存储引擎、简化数据模型、确保数据类型的兼容性以及高效的数据加载策略。通过遵循这些指导原则,可以确保从 MySQL 平滑过渡到 Infobright...
1. **模块化EMC Appliance处理多种数据类型**:EMC Greenplum Data Computing Appliance (DCA) 是一款专为大数据设计的集成硬件和软件解决方案。它结合了EMC的存储技术和Greenplum的MPP数据库,支持大规模并行处理和...
第一个解决方案是 EMC 的 GreenplumAppliance,它能够处理多种数据类型,并支持高级别的数据分析。Greenplum 是一个大规模并行处理(MPP)数据库,它可以与 SAS 和 MapR 等合作伙伴扩大对 Greenplum 的数据库支持。 ...
它支持多种数据类型,并且可以通过简单的命令进行安装和管理。 - **Sybase IQ**:一款成熟的商业列式数据库产品,以其高效的查询性能和强大的数据压缩能力而闻名。最新版本(v15.3)预计将在4、5月份发布,有望在...
* 灵活:ClickHouse支持多种数据类型,包括数字、字符串、日期、时间等。 * 可扩展:ClickHouse可以水平扩展,可以处理高达数十亿行的数据量。 ClickHouse的缺点包括: * 复杂性高:ClickHouse的架构比较复杂,...
他提出了使用Cassandra和MongoDB作为暂存系统、MySQL作为当前的数据存储系统,以及InfoBright作为高数据压缩率的列存数据库。此外,还介绍了大数据存储技术如HDFS的历史数据存储、Cassandra分布式集群的水平扩展性和...
因为数据是按列存储的,所以每列的数据类型通常是相同的,这为数据压缩提供了便利。比如,如果大部分流量并非来自广告平台,那么广告平台ID这一列可以通过压缩算法降低至原来的十分之一大小。压缩后的数据不仅减少了...
对于需要进行深入分析的日志数据,则会导入数据仓库中,利用InfoBright、KDB+等工具进行处理和分析。 综上所述,豆瓣网通过对不同类型的海量数据采取有针对性的存储和管理策略,成功构建了一个既能够应对当前挑战又...
而Infobright则适用于数据分析。值得注意的是,跨引擎的事务一致性可能会成为一个挑战,例如在MyISAM和InnoDB之间进行操作时。 在高可用性方面,MySQL提供了多种架构方案。例如,腾讯云MySQL的RO组可以提升读性能,...
在大数据分析的优化和执行方面,出现了如基于列的自调整数据仓库,如Infobright的DP、DPN、KN系统,利用粗集和粒度计算实现高效的数据管理。此外,Starfish系统引入了自调整机制,以提高大数据分析的效率和成本效益...
这些特性使得列式数据库在处理OLAP类型的查询时能够有非常高的效率,数据可以被压缩和缓存,这样可以显著减少I/O消耗,并允许更多的数据在系统缓存中可用。 OLAP的场景特点还包括查询的延迟容忍度较高(大约50毫秒...
由于数据以列为单位进行存储,因此相同类型的大量数据可以更加有效地进行压缩。假设“广告平台ID”这一列在未压缩情况下占1字节,如果大多数流量不是来自广告平台,则可以以十倍的压缩率进行压缩。解压速度同样很快...
列式数据库的研究 ...随着列式数据库的发展和应用,更多的厂商加入了列式数据库的研发队伍中来,包括Oracle、Vertica、Infobright等公司。列式数据库的发展是必然的,是一个趋势,大家正在逐渐认可列式数据库。