`

Cassandra的数据整理

阅读更多

Life is full of accidence, just enjoy it!

人生总是时时充满意外,在你某个不注意的角落,会给你突然来一下。做为一个程序猿,很多时候,你的工作就是排雷兵,有时,你去排雷,却会引爆新的雷。或者哪天你抵挡敌人进攻的雷却会变成自己撤退的雷区!

前两天上线一个新版本的时候,发现一个针对老版本的优化出了问题,感受良多,代码往往跟不上产品策略的变化。

这些雷好解决,大不了就是版本回退!但是有些雷却是太难解决了。这两天提供线上服务存储的cassandra节点出了问题,不知道某一天数据归整失败了。数据规整失败的原因看来应该是某个规整数据区间商品写入太大。通过库爬虫上线以后,每天要多写入800w的数据,8M* 10k(每个数据大小)就是90G,这里面的数据大部分都是重复的,归整完以后就只有一份,可惜不知道在某个时间点写失败了。于是悲剧了,在以后的几天里,几个爬虫的写入以每天200G+的速度蹭蹭的往上涨,3个1T的硬盘,每个都用到了75%,按照cassandra的归整方式,就没有足够的空间归整了,只能手工清除了。在这个时间点上,cassandra单个节点的性能也迅速下降,不停在在丢消息,由于对cassandra的同步机制没搞那么明白,所以不知道这些丢掉的消息会不会有数据同步的消息。更悲剧的是这里面的数据存有很多人工的数据是不能直接删除的,于是乎需要把数据读出来保存一封,写入到另外一个cassandra的节点上,让后清除这个节点的数据,然后启动这个节点,然后bootstrapping,数据就会自动同步了。

唉,第一次删线上的数据,2个多T,还是难免有很多顾虑的,提前写了很多脚本来读取,验证。rm -rf *的时候,心里还是一直在pray!

还好的就是到目前为止,没出现啥问题!

分享到:
评论

相关推荐

    Cassandra关键技术详解[整理].pdf

    Cassandra 的数据模型借鉴了谷歌 Bigtable 的设计,包括四个概念:键空间(KeySpace)、列族(ColumnFamily)、行(Row)和列(Column)。键空间是最上层的命名空间,列族相当于关系数据库中的表,但它比表更稀疏。...

    Cassandra数据模型

    Cassandra数据模型 包里面包含了cassandra安装包还有cassandra的中文安装说明和使用说明和使用例子、是cassandran对象数据库学习的最好最全的材料喽。我可是花了很多的时间才搜索整理的哦。

    数据整理的一份数据11111111

    在IT行业中,数据整理是一项至关重要的任务,尤其在大数据时代,高效、准确的数据处理是提升业务洞察力和决策质量的基础。标题"数据整理的一份数据11111111"表明这是一个关于数据整理的项目,可能包含了对某个特定...

    Cassandra High Performance Cookbook

    对于Cassandra来说,性能调优涉及的方面包括但不限于数据模型设计、查询优化、集群配置、存储和网络层面的调整、压缩技术的使用、以及数据碎片整理等。 在所给的书籍部分内容中,我们可以看到包含版权信息、出版...

    数据计算程序源码

    数据计算程序源码是用于处理和转移数据的软件应用,主要功能集中在对各种数据库中的数据进行计算,并且能够实现不同时间尺度的数据整理,包括时段数据、日数据、月数据和年数据。这样的程序在大数据处理、数据分析...

    数据分析,数据抓紧和运用

    数据分析是当今信息技术领域中的核心技能之一,它涵盖了从数据收集、整理、分析到结果解读的全过程,对于企业和组织的战略决策有着至关重要的作用。在“数据分析,数据抓紧和运用”这一主题中,我们可以深入探讨以下...

    数据收集处理平台.zip

    数据收集处理平台是一种用于收集、整理和分析大量数据的系统,尤其在当今大数据时代,这样的平台对于企业决策和业务优化至关重要。在这个名为“数据收集处理平台.zip”的压缩包中,包含了一个名为“flybeat-main”的...

    物联网大数据处理与分析.pptx

    2. **数据存储**:采用高效的数据存储技术,例如分布式文件系统(如Hadoop HDFS)、NoSQL数据库(如MongoDB、Cassandra)等,以满足物联网大数据的存储需求。 3. **数据挖掘**:利用数据挖掘和机器学习技术,对...

    基于大数据的高效数据挖掘算法及应用.pdf

    数据预处理是清洗和整理数据,去除噪声、填补缺失值、转换数据格式,以便于后续分析。数据分析阶段,数据挖掘算法在此发挥作用,常见的算法有分类、聚类、关联规则学习等。最后,数据可视化将结果以图形或图表的形式...

    大数据脑图资料整理.zip

    本资料整理旨在提供一个全面的大数据学习框架,帮助学习者理解和掌握大数据的核心技术和应用。 首先,我们要理解大数据的四大特性,通常被称为4V:Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值...

    行业数据-2018年美国女性香水零售销售额.rar

    数据分析工具如Microsoft Excel或更高级的工具如Python的Pandas库,可以帮助我们清洗、整理、计算和可视化这些数据。 2. 数据库管理:在处理大量行业数据时,有效的数据库管理是必不可少的。虽然压缩包中只有一个...

    大数据资料,自己整理的资料.rar

    Hadoop生态中的HBase、Cassandra等NoSQL数据库以及Hive、Pig等工具用于处理多样化数据。 4. **Value(价值)**:大数据的价值在于通过深度分析发现潜在模式和洞察。机器学习、数据挖掘和人工智能技术,如TensorFlow...

    大数据架构师技能整理.pdf

    这份技能整理涵盖了大数据架构师所需掌握的核心技术和工具,包括但不限于大数据处理平台、分布式存储、资源调度、机器学习、数据分析与数据仓库、消息队列、流式计算、编程语言、算法以及云计算服务。 1. 大数据...

    大数据学习笔记,学习路线,技术案例整理。.zip

    3. **数据存储与处理**:了解NoSQL数据库,如HBase、Cassandra和MongoDB,以及关系型数据库在大数据环境中的应用。学习使用SQL进行数据分析。 4. **数据预处理**:理解数据清洗、转换和集成的重要性,学习使用Pig、...

    数据库考纲精华2w字整理

    - 非关系型数据库,如MongoDB、Cassandra,适用于大规模分布式数据存储。 - 主键-值、文档、列族和图形数据库模型,适应不同应用场景。 这些知识点构成了数据库领域的核心内容,无论是开发人员、管理员还是数据...

    面试Java核心知识点整理

    [面试]Java核心知识点整理 1. 目录 2. JVM 3.JAVA集合 4.JAVA多线程并发 5.JAVA基础 6.Spring 原理 7.微服务 8.Netty与RPC 9.网络10.日志 11.Zookeeper 12.Kafka 13.RabbitMO 14. Hbase 15.MongoDB 16.Cassandra 17....

    数据库面试题整理

    - NoSQL数据库(如MongoDB、Cassandra)在大数据处理和分布式系统中有优势,但SQL在复杂查询和事务处理方面更强大。 掌握以上知识点,对于应对数据库相关的面试将大有裨益。通过对“数据库面试题”的学习和实践,...

    这些问题涵盖了大数据处理、分布式系统、机器学习等多个方面.docx

    相比之下,数据仓库主要用于存储经过清洗、整理后的结构化数据,以支持业务智能和报告分析。 10. **解释什么是推荐系统,它在大数据中的应用是什么?** - 推荐系统是一种利用用户的历史行为和其他相关信息来预测...

    数据库系统概论试卷--张秀洲整理

    11. **NoSQL数据库**:非关系型数据库如MongoDB、Cassandra和Redis的特点、适用场景及其与关系型数据库的比较。 12. **大数据与数据仓库**:Hadoop、Spark等大数据处理框架,以及数据仓库的构建和OLAP(在线分析...

    数据库重点整理.zip

    首先,我们要了解数据库的基本类型,主要有关系型数据库(如MySQL、Oracle、SQL Server)和非关系型数据库(如MongoDB、Cassandra)。关系型数据库基于关系模型,以表格形式存储数据,支持SQL查询语言;非关系型...

Global site tag (gtag.js) - Google Analytics