之前的一个消息系统使用的底层存储是je,java版的bdb(berkeley db),先赞叹一下,这产品的确牛!相关的中文博客(http://www.bdbchina.com/)。但是对于消息系统的存储来说,它有一些特点,用je的btree有些不合适,然后出了问题只能等死或去调一大推不熟悉的源码,还有licence的问题。所以一直在考虑,在空闲时间,根据消息系统的特点写一个存储,msgStore,至少在排错方面不会那么被动。
首先,消息系统的几个特点:
- 消息的生命周期非常短,但又需要写文件,就怕那几乎不会出现的jvm崩溃。
- 插入和删除非常频繁,几乎没有更新,读取至多一次
- 外在表现像一个queue,先进先出,但是也会存在小量的反fifo
那么根据这些特性和一些性能考虑,对msgStore的取舍:
- key/value,key为long,value是二维的byte数组,尽量的作为一个独立的模块,和消息的具体格式无关
- 参考je的模型,划分多个db,每个kv属于一个db
- 提供insert,update,delete,get等常规操作,不提供对不同key的批量操作
- move操作,把指定的kv高效的在db间移动,避免delete再insert
- ref操作,某个db的kv可被多个db高效的引用
- 尽量提高写性能,读性能由使用者考虑,例如通过读缓存,预读等方法
- 本身不提供读缓存,只有使用者才最清楚那些数据缓存可以最大的提高性能和什么时刻需要预读,如果是msgStore提供缓存,只能提供byteArray的缓存,还需要一次转换
- 提供类似db的本地事务
- 支持临时db,重启后该db的所有消息废弃
初步思路:
- journal的形式,记录所有的操作,所有的操作都是追加到文件里,避免寻道
- 一系列固定大小的文件 page,page个数随着kv的数目而增长或减小
- 当page不被引用,可以被删除,page不会被重用
- page有编号,编号能反映不同page里面log的先后顺序,编号大的page的log一定发生在page小的log之后
- 约束page的顺序的一个好处,在删除废弃的page时,按照从小到大的顺序删除,在这过程故障不会导致数据的不一致。例如insert_kv1[page1],delete_kv1[page2],当page1和page2都废弃,删除page1后失败,重新load时,只能load到delete_kv1,可判断kv1是被删除,之前记录kv1的操作的page被回收
- create db,remove db等对db管理的log和kv分别存在不同的page,因为db管理log生存时间可能非常长,放在一起阻止某个page被删除,分为ctrl page和kv page,以后说的page都是kv page。db ctrl的log会非常少
- 一个kv不能跨page。为避免浪费page空间,当kv大于一定的阀值认为是blob v,类似db处理blob字段的方法,写成一个单独的文件,page只记载文件路径
- 当page的空间使用率低到一定程度进行page合并。每个db的kv先进先出,一般不会出现这种情况,但是因为所有的db的kv都会写到同样的page里(如果每个db各自有自己的page,会引入寻道开销),如果相连的page可以合并,会进行合并,合并后生成新的page。这里的一个约束条件是,只有相连的page才能合并,新page不能破坏page的顺序。为了这点,如果不是合并生成的page,申请时page序号不是递增的,而是有一个跨度,那么合并的新page可使用跨度间的序号。例如page100和page200合并,新page序号是201
- 一个写线程,所有的写操作请求都会先提交,不是直接调用io,由写线程来合并请求,进行块写。在writeforce(每次写都需要刷磁盘缓存)这种策略下,提高的性能显著
- 多个读线程,同样提交读请求,由读线程进行合并,某些读请求的数据块可能是相连或是在同一个page里,可优化成每次读较大的块,再提取
- 支持优雅的关闭模式,拒绝新请求,等待提交的请求完成
- key以hashmap组织在内存里,key的内存尽量保持100byte以下,如果是百万级别的数据消耗的内存比较大,可考虑适当的钝化一部分key
- 启动时需要读完所有的page,在数据量大时比较耗时。在正常关闭时把所有的key持久化,启动时只需要解析持久化的key即可。对于一个系统来说,正常关闭的次数是远远大于非正常关闭的
- 使用checkpoint保证数据的完整性
该文章主要起一个备忘的作用,想到啥再更新。
分享到:
相关推荐
首先,群消息存储系统的设计需要考虑可扩展性。随着用户数量的增长,群组的数量和活跃度也会增加,这就要求存储系统能够处理海量的数据。通常采用分布式存储解决方案,如Hadoop或Cassandra,将数据分散在多台服务器...
《大规模分布式存储系统:原理解析与架构实战》内容分为四个部分:基础篇——分布式存储系统的基础知识,包含单机存储系统的知识,如数据模型、事务与并发控制、故障恢复、存储引擎、压缩/解压缩等;分布式系统的...
"基于Cassandra的实时气象数据分布式存储系统" 本文主要介绍了基于Cassandra的实时气象数据分布式存储系统的设计和实现。该系统采用Cassandra作为分布式存储解决方案,旨在满足气象数据存储的高可用性和性能要求。 ...
### Hadoop存储系统HDFS的文件分块存储 #### HDFS文件分块机制 Hadoop分布式文件系统(HDFS)是一种专为存储大型文件而设计的文件系统,它能够高效地处理海量数据。HDFS的基本设计理念之一就是将文件分割成多个块...
为了保证消息的完整性和一致性,MyQQ需要一个可靠的消息存储系统。消息会被持久化存储,如数据库或分布式存储系统,以便在用户离线时仍能接收到未读消息。同时,系统还需要处理消息的同步问题,确保所有设备上的聊天...
### OceanStorS2600存储系统初始配置指南知识点详解 #### 一、概述 华为OceanStor S2600存储系统是一款面向中型企业级应用的高性能、高可靠性的存储解决方案。本指南旨在帮助用户完成该系统的初始配置工作,确保...
本文将深入探讨“在存储系统中传输消息的方法、装置及存储系统、控制器”这一主题,旨在解析这一技术的关键知识点。 首先,我们要理解存储系统的基本构成。一个典型的存储系统包括硬件设备(如硬盘驱动器、固态驱动...
为了实现一个高效、可靠的消息系统,还需要考虑其他因素,如消息的发送状态跟踪、用户在线状态管理、消息的持久化存储、并发处理以及安全性措施等。此外,数据库优化、索引设计、事务处理等也是确保系统性能的重要...
分布式存储系统的核心设计目标在于解决服务器压力过大、异地快速容灾和用户就近访问等问题,从而满足日益增长的业务需求和用户体验。 异地多活分布式存储系统的提出和实现,基于异地多活和分布式CAP理论,对分布式...
分布式存储系统是一种通过网络将物理上分布于不同位置的存储资源进行整合,形成一个虚拟的存储池,为用户提供统一的访问接口和数据管理机制的存储系统。这种系统旨在提高数据的可靠性、可扩展性、透明性以及自治性,...
《电信设备-具有消息存储功能的移动通信系统和方法》主要探讨了在现代移动通信系统中,如何实现高效、安全的消息存储与管理。这一技术领域的重要性在于,随着智能手机的普及和移动互联网的发展,用户对数据通信的...
Messaging Data ▪ Small/medium sized data HBase ▪ Message metadata & indices ▪ Search index ▪ Small message bodies ▪ Attachments and large messages Haystack ▪ Used for our existing photo/...
【分布式文件云存储系统设计与实现】 随着云计算技术的快速发展,云存储已成为现代信息技术领域的重要组成部分,它允许用户在远程服务器上存储、管理和访问数据。本文由李慧慧提出了一种基于分布式文件的云存储系统...
本文将深入探讨全球移动通信系统终端的短消息业务消息存储方法。 短消息服务(SMS)的工作原理基于GSM网络的基础设施,包括移动交换中心(MSC)、短消息服务中心(SMSC)和移动台(MS)。当一条短信从发送方发出时...
安全云存储系统技术总结涉及的关键技术点包括数据加密、访问控制、身份验证、分布式存储、冗余备份、数据完整性校验以及网络协议安全性等。云存储系统通过互联网为用户提供数据存储和访问服务,确保数据安全是其核心...
利用这两个特性,可以在数据发生变化的时候主动地将变化内容及时传输给外部业务服务器,再通过业务服务器发送给相应的业务人员,以此避免外部业务系统主动和频繁读取数据库服务器,提高系统消息发送效率,降低系统...
总的来说,云存储应用技术系统结合了虚拟化存储、网络存储、文件托管服务、对象存储和消息队列等多种技术,以构建出能够支持大规模在线视频服务的架构。这些技术的深度融合,使得云存储不仅成为数据存储的解决方案,...
通过设计合理的数据库表结构,可以有效地存储和组织聊天记录,例如创建用户表、会话表和消息表。在发送和接收消息时,需要编写SQL语句插入、更新或检索数据,确保数据的一致性和可访问性。 【时钟显示功能】 时钟...
数据库管理系统(如MySQL)用于存储用户信息、短消息内容和其他相关数据。 二、核心功能实现 1. 用户注册与登录:系统需要一个可靠的用户身份验证机制,包括用户名和密码的存储(通常进行加密)、登录验证等。JSP...