NoSQL数据转储(同步)方式

willko

浏览: 389238 次
性别:
来自: 深圳

最近访客更多访客>>

路人NFTS

chinalongxia

Sdky

zhengshujunyx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Cache & Storage

NoSQL 数据结构 Redis memcached MySQL

在使用数据库方面，我们经常会遇到读/写瓶颈，只要不是达到门户级的瓶颈，多数情况都能很好的解决。这段时间NoSQL的崛起，极大的方便解决写瓶颈。写瓶颈的解决方法是先把数据缓冲到NoSQl中，然后定时转储回RMDB里，毕竟RMDB的查询能力更强。所以，会遇到一个问题，就是数据怎么同步回RMDB？

假如，有这样的应用场景，我们使用了NoSQL来存储文章点击数(pv)，并定时将点击数存储到MySQL里。

一.用户触发转储
首先给文章增加一个最后同步数据的时间戳，用于记录上次同步数据的时间戳，每次都先对比下最后同步时间是否大于n，大于n的话就同步回MySQL，然后将这次同步的时间戳保存回去。这个最后同步时间戳不一定要保存到MySQL里，如果使用了Memcached的话，可以保存到Memcached就可以了。

缺点：
1.如果静态化了，用户将触发不到这个机制
2.每次会有少量数据没同步到MySQL，因为没有达到时间间隔N的话就触发不了
3.并发大话，可能同一时间内会同步多次，所以要尽快保存最后同步时间戳，或者利用memcached的add方法来模拟锁，add方法如果key存在的话返回false，返回false表示被锁，可以不同步点击数。

二.Redis
Redis最明显的优势是支持数据结构，其次就是高性能。

1.Multiple DB
Redis可以更换db，一个Redis我们可以划分多个db。用于存储不同维度的数据，避免混合在一起，例如，日志相册分db存储，更管各的。

2.KEYS
KEYS可以返回所有的复合模式的Key，Redis天生对遍历Key提供了很良好的支持。

3.SADD和SMEMBERS
Redis支持set结构，可以用set结构来存储有更新的文章id，然后通过这个列表去同步数据。
SADD对于已经存在的元素是不会添加到集合中的，也就是元素在set里是唯一的。SMEMBERS可以返回set里的所有元素。
也就是说，set里只是用来保存点击数有变动的文章id，然后通过这些文章id，去其它NoSQL里读取点击数，同步到数据库。

缺点：
1.专门部署Redis似乎不太值得
2.Redis是基于定时内存转储了，可能丢失部分数据
3.Redis太依赖内存，数据大于内存，使用swap，性能下降

三.遍历Memcached
虽然遍历Memcached不是一个好的方法，但是相信有其适用的场景。使用stats items和stats cachedump能得到所有的key。

1.扩展memcache

class Memcache_Plus extends Memcache {

	public function getKeys() {
		$items = $this->getStats('items');
		$keys = array();

			$serverItems = $items['items'];

			foreach ($serverItems as $slabId => $item) {
				$slabKeys = $this->getStats('cachedump', $slabId, 0);

					foreach ($slabKeys as $slabKey => $slabKeyStatus) {
						$keys[] = $slabKey;
					}
			}

		return $keys;
	}

	public function getExtendedKeys() {
		$items = $this->getExtendedStats('items');
		$keys = array();

		foreach ($items as $server) {
			$serverItems = $server['items'];

			foreach ($serverItems as $slabId => $item) {
				$slabKeys = $this->getExtendedStats('cachedump', $slabId, 0);

				foreach ($slabKeys as $slabServer => $slabServerKeys) {
					foreach ($slabServerKeys as $slabServerKey => $slabServerKeyStatus) {
						$keys[] = $slabServerKey;
					}
				}
			}
		}

		return $keys;
	}
}}

使用：

$memcache = new Memcache_Plus;
$memcache->addServer('192.168.80.128', 11211);

$keys = $memcache->getKeys();

getKeys是返回单台服务器的key，getExtendedKeys是返回全部服务器的key。

2.扩展Memcached
到目前为止，Memcached::getStats不支持参数("items", "sizes", "slabs"...)

3.山寨socket版
写了个socket版，作为后备使用。用正则来匹配，主要是不想循环去解析每行。

function memcachedGetKeys($host, $port) {
	$keys = array();
	$fp = fsockopen($host, $port, $errno, $errstr, 30);

	if ($fp) {
		fwrite($fp, "stats items\r\n");

		$response = '';

		while (substr($response, -5) != "END\r\n" && substr($response, -5) != "ERR\r\n") {
			$response .= fread($fp, 1024);
		}

		preg_match_all("/STAT items:(\d+):/", $response, $matches);
		
		$slabIds = array_flip(array_flip($matches[1]));

		foreach ($slabIds as $slabId) {
			$response = '';

			fwrite($fp, "stats cachedump $slabId 0\r\n");

			while (substr($response, -5) != "END\r\n" && substr($response, -5) != "ERR\r\n") {
				$response .= fread($fp, 1024);
			}

			preg_match_all("/ITEM (.+) \[\d+ b; \d+ s\]/", $response, $matches);

			$keys = array_merge($keys, $matches[1]);
		}
	}
	
	return $keys;
}

缺点：
1.需要专门启动一个memcached来保存，遍历才不会有多余Key
2.memcached是保存在内存，数据丢失概率大。
3.memcached的LRU机制，内存不足的时候会导致数据被挤出

四.全量更新、增量更新以及Key的命名
1.Key的命名
因为value是用来保存点击数，我们可以用key来保存逻辑数据，这样我们可以从key来判断出属于哪篇文章，例如：前缀_文章id（article_1）、前缀_文章id_某天的日期(article_1_2010-05-01)

2.全量更新
如果只是想知道点击总数，那在统计和同步方面会比较简单，同步的时候直接全量更新就可以了。例如 UPDATE article SET view_count = ? WHERE article_id = ?

3.增量更新
有时候，我们的需求是细化到每天的点击数和总点击数，那总点击数的更新就不得不使用增量更新了，因为我们只记录了每天的点击数，没有一个总点击数，当然也可以同时递增2个key，那总点击数依然可以使用全量更新。

增量更新的话，我们只增量昨天和昨天之前的数据，因为今天的数据还在更新。同步完后可以把昨天和昨天之前的数据删除了。例如 UPDATE article SET view_count = view_count + ? WHERE article_id = ?

有时候，需要及时知道今天的数据，那今天的数据就不删除了，等到明天删除，如果是全量更新的话就很好办了。但是如果是增量更新的话，那只能在程序里加一下点击数，而不同步到MySQL里。

说了很多，需求不一致，或许不能直接解决问题，只希望提供一点思路。

参考资料：
如何对memcache的数据(key-value)进行遍历操作

2
顶

1
踩

分享到：

nginx 预压缩(gzip)静态文件 | 构建RESTful Web Service - 验证的实现和使 ...

2010-05-01 20:21
浏览 5420
评论(9)
分类:数据库
查看更多

9 楼 willko 2010-05-06

nightsailer 写道

willko 写道

如果是讀取的話可以用nginx代替php讀取文件，效果會好點吧。

nginx的mogilefs module太弱，不支持etag，range，生产环境还是回避为好。
对于小文件也许问题不大，但是如果要serve 稍大的（比如》100Mb）文件就不行了。

对于小文件，我们的部署方案是nginx+proxy store+psgi backend. 效果很好。

谢谢你的分享

8 楼 nightsailer 2010-05-05

willko 写道

如果是讀取的話可以用nginx代替php讀取文件，效果會好點吧。

7 楼 willko 2010-05-05

nightsailer 写道

GridFS最大的问题就是异步IO，尤其是PHP/Perl的driver不支持，无法streming,对于并发量很大的话，prefork模式有瓶颈。

不过node.js有相应的driver也可以解决，总体来说不太成熟。

我最近还在做这方面的尝试。

如果是讀取的話可以用nginx代替php讀取文件，效果會好點吧。

6 楼 nightsailer 2010-05-05

5 楼 willko 2010-05-05

nightsailer 写道

我用tc做过一个和你类似的简单的统计。我用Perl做了一个FASTCGI，将点击数更新到tc里。tc的健就是你文章的id了，假设。然后另外用一个脚本，定时将所有的tc中的数据更新到mysql中。因为tc中永远只更新当日的数据，之后可以简单的计算后刷新总数就行了。用2个脚本的好处是，读写两不误。很多时候我在维护mysql的同时，点击数仍然可以记录下来。

不过后来我用mongoDB替代了这个方式，更加快捷简便。

MongoDB確實是好東西，支持查詢，性能也可以，還支持sharding。
最近還在研究GirdFS的優缺點和應用場景。

4 楼 nightsailer 2010-05-05

3 楼 willko 2010-05-04

nightsailer 写道

使用memcached不是一个好的方式。可以考虑Flare/TT。

如果仅仅是更新点击数的话完全可以用tc，然后刷新到mysql。

整体方案太繁琐了，似乎无需同步回mysq，仅仅是出于排序的目的？

这些方案是分开来的，可能是用一种就够了，看场合了。
比较像知道如果用tc的话，怎么同步回去？

之前问过MemcacheDB的作者，是用BDB工具导出一份，然后倒入MySQL。

2 楼 willko 2010-05-04

nightsailer 写道

只是一个例子，想讲的是一些可以考虑的方式。并不单指“点击数”
也就是从NoSQL同步到MySQL一些方式。

1 楼 nightsailer 2010-05-04

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Taobao oceanbase代码: OceanBase以增量方式记录一段时间内的表格数据的增删改，从而保持着表格主体数据在一段时间内相对稳定，其中增删改的数据称为动态数据(通常在内存，也称为内存表)，而一段时间内相对稳定的主体数据称为基准数据，...

java操作redis.docx: save 命令用于将数据同步保存到磁盘，bgsave 命令用于将数据异步保存到磁盘，lastsave 命令用于返回上次成功将数据保存到磁盘的 Unix 时间戳。远程服务控制命令包括 info、monitor、slaveof 等。info 命令用于提供...

YCListScrape:一个简单的sails.js应用程序，它侦听YCList网站的Kimono API的JSON帖子，然后将结果转储到mongo db中: 这增强了应用的实时性，确保数据始终与源网站保持同步。 6. **开发流程与版本控制**：项目名中的“YCListScrape-master”暗示这是一个Git仓库的主分支，表明开发者可能使用了Git进行版本控制，以便跟踪代码的更改、...

redis常用命令整理.docx: * save：将数据同步保存到磁盘 * bgsave：将数据异步保存到磁盘 * lastsave：返回上次成功将数据保存到磁盘的 Unix 时戳 * shutdown：将数据同步保存到磁盘，然后关闭服务 * info：提供服务器的信息和统计 * monitor...

Tripple Farm:Match 3 Combination Game Complete Project 合成小镇三消Unity合成消除游戏项目游戏插件模版C#: Tripple Farm:Match 3 Combination Game Complete Project 合成小镇三消Unity合成消除游戏项目游戏插件模版C# 支持Unity2020.3.4或更高您知道像三合镇这样的著名益智游戏，并且您想制作一个自己的游戏。就是这样。这个包正好适合您。这是一个完整的项目，您可以在零分钟内将其上传到 appstore 或 googleplay 商店。基本规则： 3个或以上相同的道具可以匹配升级为新的道具。动物如果被困住，也可以合并。羽毛： -移动（android/ios）就绪。 - 包含所有源代码。 -超过 12 座建筑/军团需要升级。 -三种特殊物品可以提供帮助。 - 三个不同的主题（场景和动物） -unity iap 支持 -Unity UI -广告位已准备好 -包含详细文档

【JAVA编程基础】针对新手的JAVA基础测试题：涵盖选择题、简答与编程实践: 内容概要：本文档是一份针对Java初学者的基础测试题，分为不定项选择题、简答题和编程题三大部分。选择题涵盖标识符、数组初始化、面向对象概念、运算符优先级、循环结构、对象行为、变量命名规则、基本

MATLAB机器人运动学、动力学及轨迹规划的建模与仿真: 内容概要：本文详细介绍了如何利用MATLAB进行机器人运动学、动力学以及轨迹规划的建模与仿真。首先，通过具体的代码实例展示了正运动学和逆运动学的实现方法，包括使用DH参数建立机械臂模型、计算末端位姿以及求解关节角度。接着，讨论了雅克比矩阵的应用及其在速度控制中的重要性，并解释了如何检测和处理奇异位形。然后，深入探讨了动力学建模的方法，如使用拉格朗日方程和符号工具箱自动生成动力学方程。此外，还介绍了多种轨迹规划技术，包括抛物线插值和五次多项式插值，确保路径平滑性和可控性。最后，提供了常见仿真问题的解决方案，强调了在实际工程项目中需要注意的关键点。适合人群：对机器人控制感兴趣的初学者、希望深入了解机器人运动学和动力学的学生及研究人员、从事机器人开发的技术人员。使用场景及目标：① 学习如何使用MATLAB进行机器人运动学、动力学建模；② 掌握不同类型的轨迹规划方法及其应用场景；③ 解决仿真过程中遇到的各种问题，提高仿真的稳定性和准确性。其他说明：文中提供的代码片段可以直接用于实验和教学，帮助读者更好地理解和掌握相关概念和技术。同时，针对实际应用中的挑战提出了实用的建议，有助于提升项目的成功率。

基于单片机的无线环境监测-仿真设计(51x2+12864+18B20+HW).#0092: 包括：源程序工程文件、Proteus仿真工程文件、配套技术手册等 1、采用51/52单片机作为主控芯片； 2、发送机：18B20测温、开关模拟灯光，发送数据； 3、接收机：接受数据、12864液晶显示；

微电网优化中风光不确定性的处理：基于机会约束与概率序列的Matlab实现: 内容概要：本文探讨了在微电网优化中如何处理风光能源的不确定性，特别是通过引入机会约束和概率序列的方法。首先介绍了风光能源的随机性和波动性带来的挑战，然后详细解释了机会约束的概念，即在一定概率水平下放松约束条件，从而提高模型灵活性。接着讨论了概率序列的应用，它通过对历史数据分析生成多个可能的风光发电场景及其概率，以此为基础构建优化模型的目标函数和约束条件。文中提供了具体的Matlab代码示例，演示了如何利用CPLEX求解器解决此类优化问题，并强调了参数选择、模型构建、约束添加以及求解过程中应注意的技术细节。此外，还提到了一些实用技巧，如通过调整MIP gap提升求解效率，使用K-means聚类减少场景数量以降低计算复杂度等。适合人群：从事电力系统研究、微电网设计与运营的专业人士，尤其是那些对风光不确定性建模感兴趣的研究者和技术人员。使用场景及目标：适用于需要评估和优化含有大量间歇性可再生能源接入的微电网系统，旨在提高系统的经济性和稳定性，确保在面对风光出力波动时仍能维持正常运作。其他说明：文中提到的方法不仅有助于学术研究，也可应用于实际工程项目中，帮助工程师们制定更为稳健的微电网调度计划。同时，文中提供的代码片段可供读者参考并应用于类似的问题情境中。

linux之用户管理教程.md: linux之用户管理教程.md

基于组态王与S7-200 PLC的六层至八层电梯控制系统设计与实现: 内容概要：本文详细介绍了如何利用组态王和西门子S7-200 PLC构建六层或八层电梯控制系统。首先进行合理的IO地址分配，明确输入输出信号的功能及其对应的物理地址。接着深入解析了PLC源代码的关键部分，涵盖初始化、呼叫处理、电梯运行逻辑和平层处理等方面。此外，提供了组态王源代码用于实现动画仿真，展示了电梯轿厢的画面创建及动画连接方法。最后附上了详细的电气原理图和布局图，帮助理解和实施整个系统架构。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其是对PLC编程和人机界面开发感兴趣的从业者。使用场景及目标：适用于教学培训、工程项目实践以及研究开发等场合。旨在为相关人员提供一个完整的电梯控制系统设计方案，便于他们掌握PLC编程技巧、熟悉组态软件的应用，并能够独立完成类似项目的开发。其他说明：文中不仅包含了理论知识讲解，还分享了许多实际操作经验，如解决编码器丢脉冲的问题、优化平层停车精度的方法等。同时强调了安全性和可靠性方面的考虑，例如设置了多重保护机制以确保系统稳定运行。

基于MTF的1D-2D-CNN-LSTM-Attention时序图像多模态融合的故障识别，适合研究学习（Matlab完整源码和数据）: 在工业生产和设备运行过程中，滚动轴承故障、变压器油气故障等领域的数据分类与故障诊断至关重要。准确的数据分类与故障诊断能够及时发现设备潜在问题，避免故障恶化导致的生产事故与经济损失。LSTM能够捕获时序信息，马尔可夫场（MTF）能够一维信号转换为二维特征图，并结合CNN学习空间特征，MTF-1D-2D-CNN-LSTM-Attention模型通过将一维时序信号和二维图像融合，融合不同模态优势，并引入多头自注意力机制提高泛化能力，为数据分类与故障诊断提供了新的思路。实验结果表明，该模型在分类准确率、鲁棒性和泛化能力方面具有显著优势。多模态融合算法凭借其创新点和实验验证的有效性，在滚动轴承故障、变压器油气故障等领域展现出广阔的应用前景，有望推动相关领域故障诊断技术的进一步发展。关键词：多模态融合；故障诊断；马尔可夫场；卷积神经网络；长短期记忆神经网络适用平台：Matlab2023版本及以上。实验硬件设备配置如下：选用高性能计算机，搭载i7处理器，以确保数据处理和模型训练的高效性；配备16GB的内存，满足大规模数据加载和模型运算过程中的内存需求；使用高性能显卡，提供强大的并行计算能力，加速深度学习模型的训练过程。实验参数的选择依据多方面因素确定。

【面试模拟系统AI提示词】基于简历和岗位要求的个性化模拟面试（deepseek,豆包,kimi,chatGPT,扣子空间,manus,AI训练师）: 内容概要：本文档提供了一个面试模拟的指导框架，旨在为用户提供一个真实的面试体验。文档中的面试官名为Elian，被设定为性格温和冷静且思路清晰的形象，其主要职责是根据用户提供的简历信息和应聘岗位要求，进行一对一的模拟面试。面试官将逐一提出问题，确保每次只提一个问题，并等待候选人的回答结束后再继续下一个问题。面试官需要深入了解应聘岗位的具体要求，包括但不限于业务理解、行业知识、具体技能、专业背景以及项目经历等方面，从而全面评估候选人是否符合岗位需求。此外，文档强调了面试官应在用户主动发起提问后才开始回答，若用户未提供简历，面试官应首先邀请用户提供简历或描述应聘岗位；适用人群：即将参加面试的求职者，特别是希望提前熟悉面试流程、提升面试技巧的人士；使用场景及目标：①帮助求职者熟悉面试流程，提高应对实际面试的信心；②通过模拟面试，让求职者能够更好地展示自己的优势，发现自身不足之处并加以改进；其他说明：此文档为文本格式，用户可以根据文档内容与面试官Elian进行互动，以达到最佳的模拟效果。在整个模拟过程中，用户应尽量真实地回答每一个问题，以便获得最贴近实际情况的反馈。

招聘技巧HR必看如何进行网络招聘和电话邀约.ppt: 招聘技巧HR必看如何进行网络招聘和电话邀约.ppt

三菱PLC与组态王构建3x3书架式堆垛立体库：IO分配、梯形图编程及组态画面设计: 内容概要：本文详细介绍了利用三菱PLC（特别是FX系列）和组态王软件构建3x3书架式堆垛式立体库的方法。首先阐述了IO分配的原则，明确了输入输出信号的功能，如仓位检测、堆垛机运动控制等。接着深入解析了梯形图编程的具体实现，包括基本的左右移动控制、复杂的自动寻址逻辑，以及确保安全性的限位保护措施。还展示了接线图和原理图的作用，强调了正确的电气连接方式。最后讲解了组态王的画面设计技巧，通过图形化界面实现对立体库的操作和监控。适用人群：从事自动化仓储系统设计、安装、调试的技术人员，尤其是熟悉三菱PLC和组态王的工程师。使用场景及目标：适用于需要提高仓库空间利用率的小型仓储环境，旨在帮助技术人员掌握从硬件选型、电路设计到软件编程的全流程技能，最终实现高效稳定的自动化仓储管理。其他说明：文中提供了多个实用的编程技巧和注意事项，如避免常见错误、优化性能参数等，有助于减少实际应用中的故障率并提升系统的可靠性。

COMSOL电弧放电模型：基于磁流体方程的多物理场耦合仿真及其应用: 内容概要：本文详细探讨了利用COMSOL进行电弧放电现象的模拟，重点在于采用磁流体方程(MHD)来耦合电磁、热流体和电路等多个物理场。文中介绍了关键的数学模型如磁流体动力学方程、热传导方程以及电路方程，并讨论了求解过程中遇到的技术难题，包括参数敏感性、求解器选择、网格划分等问题。此外，作者分享了许多实践经验，比如如何处理不同物理场之间的相互作用，怎样避免数值不稳定性和提高计算效率。适用人群：适用于从事电弧放电研究的专业人士，尤其是那些希望通过数值模拟深入了解电弧行为并应用于实际工程项目的人群。使用场景及目标：①帮助研究人员更好地理解和预测电弧放电过程中的各种物理现象；②为工程师提供优化电气设备设计的方法论支持；③指导使用者正确配置COMSOL软件的相关参数以确保高效稳定的仿真结果。其他说明：尽管存在较高的计算复杂度和技术挑战，成功的电弧放电仿真能够显著提升对这一重要物理过程的认识水平，并促进相关领域的技术创新和发展。

基于粒子群优化的KELM算法在多维输入单维输出数据处理中的应用与性能提升: 内容概要：本文详细介绍了如何利用粒子群优化算法（PSO）改进极限学习机（KELM），以提升其在多维输入单维输出数据处理任务中的性能。首先简述了KELM的工作原理及其快速训练的特点，接着深入探讨了PSO算法的机制，包括粒子的速度和位置更新规则。然后展示了如何将PSO应用于优化KELM的关键参数，如输入权值和隐含层偏置，并提供了具体的Python代码实现。通过对模拟数据和实际数据集的实验对比，证明了PSO优化后的KELM在预测精度上有显著提升，尤其是在处理复杂数据时表现出色。适合人群：对机器学习尤其是深度学习有一定了解的研究人员和技术爱好者，以及从事数据分析工作的专业人士。使用场景及目标：适用于需要高效处理多维输入单维输出数据的任务，如时间序列预测、回归分析等。主要目标是通过优化模型参数，提高预测准确性并减少人工调参的时间成本。其他说明：文中不仅给出了详细的理论解释，还附上了完整的代码示例，便于读者理解和实践。此外，还讨论了一些实用技巧，如参数选择、数据预处理等，有助于解决实际应用中的常见问题。

基于粒子群算法的微网优化调度Matlab程序设计与实现: 内容概要：本文介绍了利用粒子群算法（PSO）解决微网优化调度问题的方法。主要内容涵盖微网系统的组成（风力、光伏、储能、燃气轮机、柴油机）、需求响应机制、储能SOC约束处理及粒子群算法的具体实现。文中详细描述了目标函数的设计，包括发电成本、启停成本、需求响应惩罚项和SOC连续性惩罚项的计算方法。同时，阐述了粒子群算法的核心迭代逻辑及其参数调整策略，如惯性权重的线性递减策略。此外，还讨论了代码调试过程中遇到的问题及解决方案，并展示了仿真结果，证明了模型的有效性和优越性。适合人群：从事电力系统优化、智能算法应用的研究人员和技术人员，特别是对微网调度感兴趣的读者。使用场景及目标：适用于研究和开发微网优化调度系统，旨在提高供电稳定性的同时降低成本。具体应用场景包括但不限于分布式能源管理、工业园区能源调度等。目标是通过合理的调度策略，使微网系统在满足需求响应的前提下，实现经济效益最大化。其他说明：本文提供的Matlab程序具有良好的模块化设计，便于扩展和维护。建议读者在理解和掌握基本原理的基础上，结合实际情况进行改进和创新。

【KUKA 机器人资料】：典型机器人案例分析.pdf: KUKA机器人相关资料

基于多智能体的高层建筑分阶段火灾疏散仿真及策略研究.pdf: 基于多智能体的高层建筑分阶段火灾疏散仿真及策略研究.pdf

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论