由于数据量的巨大,大部分Web应用都需要部署很多个数据库实例。这样,有些用户操作就可能需要去修改多个数据库实例中的数据。传统的解决方法是使用分布式事务保证数据的全局一致性,经典的方法是使用两阶段提交协议。
长期以来,分布式事务提供的优雅的全局ACID保证麻醉了应用开发者的心灵,很多人都不敢越雷池一步,想像没有分布式事务的世界会是怎样。如今就如MySQL和PostgreSQL这类面向低端用户的开源数据库都支持分布式事务了,开发者更是沉醉其中,不去考虑分布式事务是否给系统带来了伤害。
事实上,有所得必有所失,分布式事务提供的ACID保证是以损害系统的可用性、性能与可伸缩性为代价的。只有在参与分布式事务的各个数据库实例都能够正常工作的前提下,分布式事务才能够顺利完成,只要有一个工作不正常,整个事务就不能完成。这样,系统的可用性就相当于参加分布式事务的各实例的可用性之积,实例越多,可用性下降越明显。从性能和可伸缩性角度看,首先是事务的总持续时间通常是各实例操作时间之和,因为一个事务中的各个操作通常是顺序执行的,这样事务的响应时间就会增加很多;其次是一般Web应用的事务都不大,单机操作时间也就几毫秒甚至不到1毫秒,一但涉及到分布式事务,提交时节点间的网络通信往返过程也为毫秒级别,对事务响应时间的影响也不可忽视。由于事务持续时间延长,事务对相关资源的锁定时间也相应增加,从而可能严重增加了并发冲突,影响到系统吞吐率和可伸缩性。
正是由于分布式事务有以上问题,eBay在设计上就不采用分布式事务,而是通过其它途径来解决数据一致性问题。其中使用的最重要的技术就是消息队列和消息应用状态表。
举个例子。假设系统中有以下两个表
user(id, name, amt_sold, amt_bought)
transaction(xid, seller_id, buyer_id, amount)
其中user表记录用户交易汇总信息,transaction表记录每个交易的详细信息。
这样,在进行一笔交易时,若使用事务,就需要对数据库进行以下操作:
begin;
INSERT INTO transaction VALUES(xid, $seller_id, $buyer_id, $amount);
UPDATE user SET amt_sold = amt_sold + $amount WHERE id = $seller_id;
UPDATE user SET amt_bought = amt_bought + $amount WHERE id = $buyer_id;
commit;
即在transaction表中记录交易信息,然后更新卖家和买家的状态。
假设transaction表和user表存储在不同的节点上,那么上述事务就是一个分布式事务。要消除这一分布式事务,将它拆分成两个子事务,一个更新transaction表,一个更新user表是不行的,因为有可能transaction表更新成功后,更新user失败,系统将不能恢复到一致状态。
解决方案是使用消息队列。如下所示,先启动一个事务,更新transaction表后,并不直接去更新user表,而是将要对user表进行的更新插入到消息队列中。另外有一个异步任务轮询队列内容进行处理。
begin;
INSERT INTO transaction VALUES(xid, $seller_id, $buyer_id, $amount);
put_to_queue “update user(“seller”, $seller_id, amount);
put_to_queue “update user(“buyer”, $buyer_id, amount);
commit;
for each message in queue
begin;
dequeue message;
if message.type = “seller” then
UPDATE user SET amt_sold = amt_sold + message.amount WHERE id = message.user_id;
else
UPDATE user SET amt_bought = amt_bought + message.amount WHERE id = message.user_id;
end
commit;
end
上述解决方案看似完美,实际上还没有解决分布式问题。为了使第一个事务不涉及分布式操作,消息队列必须与transaction表使用同一套存储资源,但为了使第二个事务是本地的,消息队列存储又必须与user表在一起。这两者是不可能同时满足的。
如果消息具有操作幂等性,也就是一个消息被应用多次与应用一次产生的效果是一样的话,上述问题是很好解决的,只要将消息队列放到transaction表一起,然后在第二个事务中,先应用消息,再从消息队列中删除。由于消息队列存储与user表不在一起,应用消息后,可能还没来得及将应用过的消息从队列中删除时系统就出故障了。这时系统恢复后会重新应用一次这一消息,由于幂等性,应用多次也能产生正确的结果。
但实际情况下,消息很难具有幂等性,比如上述的UPDATE操作,执行一次和执行多次的结束显然是不一样的。解决这一问题的方法是使用另一个表记录已经被成功应用的消息,并且这个表使用与user表相同的存储。假设增加以下表 message_applied(msg_id)记录被成功应用的消息,则产生最终的解决方案如下:
begin;
INSERT INTO transaction VALUES(xid, $seller_id, $buyer_id, $amount);
put_to_queue “update user(“seller”, $seller_id, amount);
put_to_queue “update user(“buyer”, $buyer_id, amount);
commit;
for each message in queue
begin;
SELECT count(*) as cnt FROM message_applied WHERE msg_id = message.id;
if cnt = 0 then
if message.type = “seller” then
UPDATE user SET amt_sold = amt_sold + message.amount WHERE id = message.user_id;
else
UPDATE user SET amt_bought = amt_bought + message.amount WHERE id = message.user_id;
end
INSERT INTO message_applied VALUES(message.id);
end
commit;
if 上述事务成功
dequeue message
DELETE FROM message_applied WHERE msg_id = message.id;
end
end
我们来仔细分析一下:
1、消息队列与transaction使用同一实例,因此第一个事务不涉及分布式操作;
2、message_applied与user表在同一个实例中,也能保证一致性;
3、第二个事务结束后,dequeue message之前系统可能出故障,出故障后系统会重新从消息队列中取出这一消息,但通过message_applied表可以检查出来这一消息已经被应用过,跳过这一消息实现正确的行为;
4、最后将已经成功应用,且已经从消息队列中删除的消息从message_applied表中删除,可以将message_applied表保证在很小的状态(不清除也是可以的,不影响系统正确性)。由于消息队列与message_applied在不同实例上,dequeue message之后,将对应message_applied记录删除之前可能出故障。一但这时出现故障,message_applied表中会留下一些垃圾内容,但不影响系统正确性,另外这些垃圾内容也是可以正确清理的。
虽然由于没有分布式事务的强一致性保证,使用上述方案在系统发生故障时,系统将短时间内处于不一致状态。但基于消息队列和消息应用状态表,最终可以将系统恢复到一致。使用消息队列方案,解除了两个数据库实例之间的紧密耦合,其性能和可伸缩性是分布式事务不可比拟的。
当然,使用分布式事务有助于简化应用开发,使用消息队列明显需要更多的工作量,两者各有优缺点。个人观点是,对于时间紧迫或者对性能要求不高的系统,应采用分布式事务加快开发效率,对于时间需求不是很紧,对性能要求很高的系统,应考虑使用消息队列方案。对于原使用分布式事务,且系统已趋于稳定,性能要求高的系统,则可以使用消息队列方案进行重构来优化性能。
分享到:
相关推荐
4. 异步确保(Asynchronous Ensure):是一种基于消息队列的分布式事务实现技术。它可以确保事务的执行顺序和可靠性,避免了分布式事务中的竞争Condition。 5. 最大努力通知(Best-Effort Notification):是一种...
这种方式通过消息队列来传递事务状态,并在消息确认接收后执行事务操作,从而确保所有参与者的操作结果最终达成一致。这种方式适用于对实时性要求不是特别高的场景,但需要对系统进行一定的设计调整。 #### 六、...
基于rabbit和本地消息表实现可靠消息一致性分布式事务,项目下载下来直接可以用了,已经包含了配置文件和数据库脚本,有问题的可以给我私信。项目架构springboot、nacos、rabbitMq、redis、MySQL
1. **JTA(Java Transaction API)**:这是Java平台的标准API,用于管理全局事务,可以跨越多个资源管理器(如数据库和消息队列)。JTA包括三个主要组件:JTAS(Java Transaction Service),定义了事务管理器接口;...
3. **消息队列(MQ)**:在分布式事务中,可靠消息服务通常是基于消息队列实现的,如RabbitMQ、Kafka或RocketMQ等。消息队列作为异步中间件,可以确保消息的可靠传递,实现最终一致性。 4. **两阶段提交(2PC)**:...
MQ补偿可以确保分布式事务的一致性和可靠性,通过消息队列来实现事务的回滚和确认。 在分布式事务中,XA、Saga、TCC和MQ补偿等解决方案都可以用于实现分布式事务的一致性和可靠性。每种解决方案都有其特点和优势,...
分布式事务应用的成功构建,不仅需要中间件平台的支持,还需要应用开发者对分布式计算和事务管理有深刻的理解,以及对应用模式的恰当选择。在实际开发过程中,可能还需要考虑性能优化、故障恢复、安全性保障等因素,...
除此之外,也有基于消息队列、补偿事务(TCC)等不同实现方式的分布式事务处理策略。 然而,在实际应用中,分布式事务的引入会增加系统的复杂度和开销,因此在决定是否采用分布式事务时,应该充分评估业务需求和...
本篇将详细探讨如何使用Starling这一分布式消息队列来实现异步处理事务。 首先,Starling是一个基于Java的轻量级消息中间件,它提供了一个高性能、可伸缩的消息传递机制,常用于构建分布式系统中的解耦和异步通信。...
在本方案中,我们将利用RabbitMQ的延迟队列特性来实现在订单和库存系统中的分布式事务最终一致性。 RabbitMQ是基于AMQP(Advanced Message Queuing Protocol)的消息中间件,它提供了一种可靠的消息传递机制,使得...
分布式消息队列(Distributed Message Queue)是一种在不同进程、服务或系统之间实现消息通信的中间件技术。它在客服系统中的应用可以极大地...随着技术的发展,分布式消息队列在客服系统中的应用将会更加广泛和深入。
这包括减少事务的粒度、使用读已提交或可重复读隔离级别来降低锁的竞争,以及使用分布式事务协调器来提高并发处理能力。 总结来说,大规模SOA系统中的分布式事务处理是系统设计和实施的重要组成部分,涉及到一系列...
分布式事务是大型分布式系统中必不可少的一个技术...总的来说,"分布式事务解决方案.zip"是一份全面的分布式事务学习资料,无论你是初学者还是经验丰富的开发者,都能从中受益匪浅,提升对分布式事务的理解和应用能力。
该项目是一个采用消息队列解决分布式事务的开源框架,基于Java语言开发(JDK1.8),并支持dubbo、springcloud、motan等RPC框架进行分布式事务处理。通过该项目,开发者可以学习并实践分布式事务的处理,为后续的...
《分布式架构和消息队列技术在抄表系统的应用》这篇文献主要探讨了在电力与能源领域,如何利用分布式系统原理和消息队列技术改进抄表系统,以应对日益复杂和庞大的系统需求。文章作者李朋来自上海明华电力技术工程...
### 分布式事务基础知识与实践 #### 一、分布式事务概念及重要性 在现代软件架构中,随着业务复杂度的提升以及系统规模的扩大,单一应用已经很难满足实际需求,分布式系统应运而生。分布式系统由多个独立运行的...
从提供的文件`yilu-tech/yimq-laravel-sdk/src/YiMqManager.php`来看,这可能是YiMQ专门为Laravel框架提供的SDK,允许开发者在Laravel应用中轻松集成YiMQ服务,实现基于消息队列的分布式事务管理。 Laravel是一个...
事务消息是一种常见的实现最终一致性的方法,它通过消息队列来传递事务的状态变化,确保各个参与节点最终能够达到一致的状态。 #### 五、事务解决方案 **5.1 可靠事件模式** 可靠事件模式通过本地事件表和外部...