缓存为什么能提高性能?
为什么memcached的性能比mysql高?
首要因素是memcached的数据都是位于内存中,mysql的数据可能是位于磁盘里。从IO速度来说,内存IO比磁盘IO会快几个数量级,memcached也就比mysql性能更高。架构和性能优化做到后面,会发现最终限制性能的是硬件瓶颈。例如nginx做静态webserver时,出口流量往往能达到网卡的最大值或出口带宽的最大值。mysql是个性能还不错的db,但它的数据持久化在磁盘上,自然就受限于磁盘IO速度。
mysql也是有缓存的,但大多数场景下觉得还是不够用,这就涉及到次要因素——针对具体业务特征做优化。mysql支持完全的增删查改SQL操作,还得支持where条件组合,这种复杂性让mysql的缓存机制有较大挑战,不像memcached这种key-value类型的操作一定是点查询,所以mysql的缓存机制不如memcached那么简单有效。总结一点就是,性能、通用性、成本三者难以同时满足。在成本一定的情况下,专用的高效,通用的低效,ttserver/redis/mangodb也都符合这个原则。如何同时满足性能和通用性呢?那自然就是提高成本,最简单的方案是mysql+固态硬盘。
针对具体业务特征做优化,有很多我们耳熟能详的其他表述方法:因地制宜、因时制宜、具体问题具体分析、特例化等等。它确实是我们适用于人生、事业、技术的一个原则,是个好东西。经验多的优势就是能因地制宜、因时制宜的去分析解决问题。出现问题后,我们一般会先扛住再优化,必要时会拿空间换时间,或者拿时间换空间。
“空间换时间”看起来有点高深,其实只是个包装,举个例子就明白了。在《数据层的演进(上)》中,当访问量增加时,我们使用更多的机器横向扩容,性能得以提升,这个就是拿更多的机器(空间)来换用户更快的访问速度(时间)。
SNS查询
随着社交网络的普及,查询好友动态的需求更常见了。这个功能怎么实现呢?最简单粗暴的做法是先查询我的好友有哪些,然后再依次查询好友的动态,接着把这些好友动态聚合起来按时间排序,最后存入缓存中备用。上流的做法是,开发一个专用的server来实现这个功能,对外只用提供一个简单的接口。这个server内部还会把“依次查询好友的动态”变成“并行查询好友的动态”,最后再聚合,这样能提高速度,有点MapReduce的感觉。
数据一致性问题
业务server如果有多个(横向扩容),并且使用memcached这种公用缓存,那么需要处理好数据一致性问题。如果A和B两个业务server“同时”都从memcached缓存里读取了player信息,修改后用set方式写回到缓存时,那么先做的修改会被后做的修改覆盖掉,因为set方式是直接覆盖,不检查其他内容。为解决这个问题,可以采用cas方式更新缓存。
cas方式的思路是这样的,读数据时会获得数据的seq,cas更新数据时,先检查cas里提交的seq和缓存里的seq是否一致,一致才会更新数据并把seq+1。上述A和B读数据得到相同的seq,前一个cas更新成功后seq会变,后一个cas就会失败。这时需要业务server自行处理好cas更新失败的情况。
但这个又会衍生另一个问题,如果业务server的某个操作需要有5次数据更新操作,假如最后的cas操作可能失败,那么前面4次数据更新操作就麻烦了,是回滚,还是把最后的cas再操作一次,或者把这个失败记录在案就不管了?不管是哪种都有麻烦,不够完美,需要按业务实际的情况来做分析。
业务server内部缓存
为了避免上述数据一致性问题,在游戏后台设计中,还有一种做法是由gamesvr自己在内部管理缓存。这种做法的好处是缓存专用,不用考虑其他gamesvr修改缓存导致的数据不一致性问题。需要注意的问题是,数据只能在一个gamesvr里访问,如果需要访问其他gamesvr管理的数据,就通过proxysvr来中转请求。对于现在分区分服模式的游戏,只要没有太重的逻辑计算,用C++开发的gamesvr完全能一个server进程搞定一个区8000人同时在线(现实中一个区的同时在线也很难达到8000)。这样就是在gamesvr里搞定所有事情,不考虑互斥,不考虑数据一致性。
备份策略
线上业务如果没做数据备份,皮鞭滴蜡的惩罚都是轻的。重要数据采用每天全量备份+binlog增量备份+slave实时同步。这些都是常见技术方案,不啰嗦了。
相关推荐
尽在双11:阿里巴巴技术演进与超越,尽在双11:阿里巴巴技术演进与超越尽在双11:阿里巴巴技术演进与超越尽在双11:阿里巴巴技术演进与超越尽在双11:阿里巴巴技术演进与超越尽在双11:阿里巴巴技术演进与超越尽在...
教育信息化是政府政策引导下的重要方向,国家财政资金的投入是行业稳定发展的核心动力。具体来看,政府在教育经费中划拨不低于8%的比例用于教育信息化建设,这保证了教育信息化市场的稳步增长。从数据上看,中国教育...
数据仓库和数据湖是两种不同数据管理策略的代表,它们反映了数据架构的演进历程。数据仓库自20世纪70年代随着关系数据库的发展而兴起,主要目标是为决策支持提供结构化的、一致的和历史的数据。数据仓库通过ETL...
质量护航的发展之道:TIC行业的演进规律与制胜法则.pdf 质量护航的发展之道:TIC行业的演进规律与制胜法则.pdf 质量护航的发展之道:TIC行业的演进规律与制胜法则.pdf 质量护航的发展之道:TIC行业的演进规律与制胜...
在早期,豆瓣可能采用了传统的三层架构,包括前端展示层、业务逻辑层和数据访问层。随着用户数量的增长,这种架构会面临性能瓶颈,于是豆瓣可能会引入负载均衡和分布式服务来提升系统处理能力。例如,通过Nginx进行...
【研究报告:实时架构演进】 本研究报告探讨了实时架构的发展历程,从无到有,再到逐渐成熟和完善。报告中以“饿了么”为例,展示了其实时架构在短时间内实现高速发展的过程,以及面临的挑战和解决方案。 一、从0...
中国联通 CUBE-NET 2.0+:边缘网路演进白皮书
区域经济学-课件第四讲:产业结构演进.pptx
当前AI算法的发展正转向以大模型为主的数据依赖,丰富、高质量数据集是AI产业持续向前的核心基础。伴随公开数据集的逐步耗尽,借助算法实现数据合成,以及垂类领域专有数据集将是企业后续差异化优势主要来源,同时...
* 当前AI算法的发展正转向以大模型为主的数据依赖,丰富、高质量数据集是AI产业持续向前的核心基础。 * 借助算法实现数据合成,以及垂类领域专有数据集将是企业后续差异化优势主要来源,同时数据使用合规、用户隐私...
其中,Batch Compute和Stream Compute分别负责批量数据处理和实时流数据处理,满足不同场景下的数据需求。 数据运营方面,菜鸟构建了数据仓库、数据站点和数据看板等工具,用于数据的收集、整合和展示,便于业务...
在探讨陆增义在GOPS全球运维大会2019·深圳站所介绍的阿里巴巴智能数据中心AIOps演进之前,我们首先要明确几个核心概念。 首先,AIOps指的是通过人工智能(AI)技术与运维实践相结合,对运维工作进行优化。它能够...
数据仓库和数据湖是现代企业数据管理的两个关键概念,它们代表了数据架构从传统到现代的演进历程。本文将深入探讨数据仓库的历史沿革、核心概念以及数据湖的出现,来阐述这一演变过程。 数据仓库历史沿革始于1970...
该系统建设方案涵盖了主数据管理的总体规划方法、业务解决方案、信息系统解决方案、主数据实施业务流程、主数据管理内容、主数据规划、数据模型、元数据管理、主数据质量管理、主数据规划等方面。通过实施主数据管理...
5G移动通信系统:从演进到革命epub格式;
【全球信息技术演进与数据中心的关系】 信息技术的演进与数据中心的发展紧密相连,它们共同塑造了现代社会的数据基础设施。从早期的计算机技术,到互联网的诞生,再到云计算和5G的广泛应用,每一次信息技术的重大...
在此背景下,行业分析师看好未来5-10年物联网行业的发展,并建议近期关注感知层的传感器和MCU板块、传输层的射频模组和通信模组板块、以及平台和应用层的工业互联网和车联网板块。 报告中还提到,本周市场中,上证...
菜鸟数据中台技术演进之路 菜鸟数据中台是阿里巴巴集团旗下的数据中台平台,旨在提供数据运营、数据服务和数据管理等功能,帮助企业实现数字化转型和数据驱动的业务增长。以下是菜鸟数据中台技术演进之路的详细知识...