HBase如何迁移数据

iammonster

浏览: 1796933 次
性别:
来自: 北京

最近访客更多访客>>

amwfngt

yuanyuan7891

sagadan

JianCaesar

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HBase

HBase Hadoop Mapreduce Python UP

HBase如何迁移数据？这里有个方案：http://blog.mozilla.com/data/2011/02/04/migrating-hbase-in-the-trenches/ ，我还未验证，因为我碰到了更加棘手的问题，我的两个集群在两个局域网，没法通信。（不过可以有一台机双网卡连接两个集群）。

先了解下 /app/cloud/hadoop/bin/hadoop distcp src desc

原文内容：

We recently had a situation where we needed to copy a lot of HBase data while migrating from our old datacenter to our new one. The old cluster was running Cloudera’s CDH2 with HBase 0.20.6 and the new one is running CDH3b3. Usually I would use Hadoop’s distcp utility for such a job. As it turned out we were unable to use distcp while HBase was still running on the source cluster. Part of the reason for this is that the HFTP will throw XML errors due to HBase modifying files (particularly the case if HBase removes a directory). And to transfer our entire dataset at the time was going to take well over a day. This presented a serious problem because we couldn’t accept that kind of downtime. We were also about 75% full in the source cluster so doing HBase export was out as well. Thus I created a utility called Backup .

Backup is designed to essentially do the same work as distcp with a few differences. The first being that Backup would be designed move beyond failures. Since we’re still running HBase on the source cluster we can actually expect quite a few failures as a matter of fact. So inside Backup’s MapReduce job will by design catch generic exceptions. This is probably a bit over-zealous, but I really needed it not to fail no matter what. Especially after a few hours in.

One of the other differences is that I designed Backup to always use relative paths. It does this by generating a common path between the source and destination via regular expression. Distcp on the other hand will do some really interesting things depending on what options you’ve enabled. If you use the -f flag for providing a file list, it will take all the files and write them directly to the target directory, rather than putting them in their respective sub-directories based on the source path. If you run with the -update flag it seems to put the source directory inside the destination rather than realizing that I want these two directories to look the same.

The last major difference is that Backup is designed to run in update mode always. This was found because our network connection could only push about 200 MB/s between datacenters. We later found that a firewall was the bottleneck, but we didn’t want to drop our pants to the world either. Distcp would take hours just to stat and compare the files. For context we had something on the order of 300K-400K files we were looking to transfer. This is because distcp currently does this in a single-thread before it runs its MapReduce job. This actually makes sense when considering that distcp is only a single MapReduce job and it wants to distribute the copy evenly. Since we needed to minimize downtime, the first thing I did was distribute the file stat comparisons. In exchange we currently take a hit on not being able to evenly distribute the copy work. Backup uses a hack to attempt to get better distribution, but it’s nowhere near ideal. Currently it looks at the top-level directories just under the main source directory. It then splits that list of directories into mapred.map.tasks number of files. Since the data is small (remember this is paths and not the actual data) you’re pretty much guaranteed MapReduce will take your suggestion for once. This splits up the copy pretty well especially for the first run. On subsequent runs however you’ll get bottlenecked by a few nodes doing all the work. You can always up the mapred.map.tasks even higher, but really I need to split it out into two MapReduce jobs. I also added a -f flag so that we could specify file lists. I’ll explain later on why this was really useful for us.

So back to our situation. I ran the first Backup job while HBase was running. This copied the bulk of our 28 TB dataset obviously with a bunch of a failures because HBase had deleted some directories. Now that we had most of the data we could do subsequent Backup’s within a smaller time window. We ingest about 300 GB/day so our skinny pipe between datacenters was able to make subsequent transfers in hours and not days. During scheduled downtime we would shutdown the source HBase. Then we copied the data to a secondary cluster in the new datacenter. As soon as the transfer was finished we would verify the source and destination matched. If so then we were all good to start up the source cluster again and resume normal production operation. Meanwhile we would copy the data from the secondary cluster to the new production cluster. The reason for doing this was because HBase 0.89+ would change the region directories, and we also needed to allow Socorro web developers to do their testing. So having the two separate clusters was a real blessing. It allowed us to keep a pristine backup at all times on secondary while testing against the new production cluster. So we did this a number of times the week before launch. Always trying to keep everything as up to date as we could before we threw the switch to cut over.

It was during this last week I added the -f flag which allowed giving Backup a source file list. We would run “hadoop fs -lsr /hbase ” on both the source and the destination cluster. I wrote a simple python utility (lsr_diff ) to compare these two files and figure out what needed to be copied and what needed to be deleted. The files to copy could be given to the Backup job while the deletes could be handled with a short shell script (Backup doesn’t have delete functionality). The process looked something like this:

RUN ON SOURCE CLUSTER: hadoop fs -lsr /hbase > source_hbase.txt RUN ON TARGET CLUSTER: hadoop fs -lsr /hbase > target_hbase.txt scp source_host:./source_hbase.txt . python lsr_diff.py source_hbase.txt target_hbase.txt sort copy-paths.txt -o copy-paths.sorted sudo -u hdfs hadoop fs -put copy-paths.sorted copy-paths.sorted nohup sudo -u hdfs hadoop jar akela-job.jar com.mozilla.hadoop.Backup -Dmapred.map.tasks=112 -f hdfs://target_host:8020/user/hdfs/copy-paths.sorted hftp://source_host:50070/hbase hdfs://target_host:8020/hbase

The number of map tasks I refined over time, but I started the initial run with (# of hosts * # of map task slots). On subsequent runs I ended up doubling that number. After the backup job completed each time we would run “hadoop fs -lsr” and diff again to make sure that everything copied over. I saw a lot of times that wasn’t the case when the source was HFTP from one datacenter to another. However when copying files from an HDFS source within our new datacenter I never saw an issue with copying.

Due to other issues (there always are right?) we had a pretty tight timeline and this system was pretty hacked together, but it worked for us. In the future I would love to see some modifications made to distcp. Here’s my wishlist based on our experiences:

1.) Distribute the file stat comparisons and then run a second MapReduce job to do the actual copying.
2.) Do proper relative path copies.
3.) Distribute deletes too.

To be honest though I found the existing distcp code a bit overly complex otherwise I might have made the modifications myself. Perhaps the best thing is that someone take a crack at a fresh rewrite of distcp altogether. I would love to hear people’s feedback.

声明：谁有高招麻烦告知在下，上面说的这个解决方案不适合我的情况。

1
顶

6
踩

分享到：

HBase迁移数据方案1（两个集群不能通信） | HBase如何存取多个版本的值

2011-03-10 13:42
浏览 6540
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

软件工程第三章实验报告.docx: 软件工程第三章实验报告.docx

第三章-第八节通信礼仪.ppt: 第三章-第八节通信礼仪.ppt

智能家居股份合作协议.docx: 智能家居股份合作协议.docx

西门子S7-1200 PLC双轴定位控制在电池焊接中的应用与优化: 内容概要：本文详细介绍了基于西门子S7-1200 PLC的双轴定位控制系统在电池焊接项目中的应用。主要内容涵盖双轴定位算法的设计与实现，包括使用SCL语言编写的运动控制函数块，以及梯形图用于处理IO互锁和焊接时序控制。文中还讨论了威纶通触摸屏的界面设计，如动态元素映射、宏指令的应用，以及电气图纸的安全回路设计。此外，文章分享了多个调试技巧和注意事项，如加速度参数设置、伺服驱动器订货号核对、BOM清单管理等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和触摸屏界面设计的专业人士。使用场景及目标：适用于需要深入了解PLC编程、运动控制算法、触摸屏界面设计及电气图纸绘制的工程项目。目标是提高双轴定位控制系统的精度和稳定性，确保电池焊接的质量和安全性。其他说明：文中提供了完整的工程文件包下载链接，并强调了在实际应用中需要注意的具体事项，如硬件配置检查、参数调整等。

Simulink与Carsim联合仿真：基于PID与MPC的自适应巡航控制系统设计与实现: 内容概要：本文详细介绍了如何利用Simulink和Carsim进行联合仿真，实现基于PID（比例-积分-微分）和MPC（模型预测控制）的自适应巡航控制系统。首先阐述了Carsim参数设置的关键步骤，特别是cpar文件的配置，包括车辆基本参数、悬架系统参数和转向系统参数的设定。接着展示了Matlab S函数的编写方法，分别针对PID控制和MPC控制提供了详细的代码示例。随后讨论了Simulink中车辆动力学模型的搭建，强调了模块间的正确连接和参数设置的重要性。最后探讨了远程指导的方式，帮助解决仿真过程中可能出现的问题。适合人群：从事汽车自动驾驶领域的研究人员和技术人员，尤其是对Simulink和Carsim有一定了解并希望深入学习联合仿真的从业者。使用场景及目标：适用于需要验证和优化自适应巡航控制、定速巡航及紧急避撞等功能的研究和开发项目。目标是提高车辆行驶的安全性和舒适性，确保控制算法的有效性和可靠性。其他说明：文中不仅提供了理论知识，还有大量实用的代码示例和避坑指南，有助于读者快速上手并应用于实际工作中。此外，还提到了远程调试技巧，进一步提升了仿真的成功率。

基于MATLAB/Simulink的变压器励磁涌流仿真模型构建与应用: 内容概要：本文深入探讨了利用MATLAB/Simulink搭建变压器励磁涌流仿真模型的方法和技术。首先介绍了空载合闸励磁涌流仿真模型的搭建步骤，包括选择和配置电源模块、变压器模块以及设置相关参数。文中详细讲解了如何通过代码生成交流电压信号和设置变压器的变比，同时强调了铁芯饱和特性和合闸角控制的重要性。此外，还讨论了电源简化模型的应用及其优势，如使用受控电压源替代复杂电源模块。为了更好地理解和分析仿真结果，文章提供了绘制励磁涌流曲线的具体方法，并展示了如何提取和分析涌流特征量，如谐波含量和谐波畸变率。最后，文章指出通过调整电源和变压器参数，可以实现针对不同应用场景的定制化仿真，从而为实际工程应用提供理论支持和技术指导。适合人群：从事电力系统研究、变压器设计及相关领域的科研人员、工程师和技术爱好者。使用场景及目标：适用于希望深入了解变压器励磁涌流特性的研究人员，旨在帮助他们掌握MATLAB/Simulink仿真工具的使用技巧，提高对励磁涌流现象的理解和预测能力，进而优化继电保护系统的设计。其他说明：文中不仅提供了详细的建模步骤和代码示例，还分享了一些实用的经验和技巧，如考虑磁滞效应对涌流的影响、避免理想断路器带来的误差等。这些内容有助于读者在实践中获得更加准确可靠的仿真结果。

三菱FX3U PLC与Factory IO通讯仿真PID液位调节程序：低成本高效学习PID控制: 内容概要：本文详细介绍了利用三菱FX3U PLC与Factory IO通讯仿真进行PID液位调节的方法，旨在降低学习PID控制的成本和难度。文中首先指出了传统硬件学习PID控制面临的高昂成本和复杂接线问题，随后介绍了仿真程序的优势，包括PID配置参数、调节参数、自整定和手动整定的学习方法。接着阐述了所需的设备和软件环境，以及具体的代码示例和寄存器配置。最后，通过实例展示了如何通过仿真环境进行PID参数调整和测试，验证了该方案的有效性和实用性。适合人群：初学者和有一定PLC基础的技术人员，特别是那些希望通过低成本方式学习PID控制的人群。使用场景及目标：适用于希望在不购买昂贵硬件的情况下，快速掌握PID控制原理和技术的应用场景。目标是通过仿真环境，熟悉PID参数配置和调整，最终能够应用于实际工业控制系统中。其他说明：本文不仅提供了理论指导，还给出了详细的实践步骤和代码示例，使读者能够在实践中更好地理解和掌握PID控制技术。同时，强调了仿真环境与实际项目的相似性，便于知识迁移。

智慧城市树木二维码智能管理系统概述.docx: 智慧城市树木二维码智能管理系统概述.docx

.NET框架下基于Oracle数据库的大型MES生产制造管理系统源码解析与应用: 内容概要：本文详细介绍了基于.NET框架和Oracle数据库构建的大型MES（制造执行系统）生产制造管理系统的源码结构及其技术特点。该系统采用了BS架构，适用于Web端和WPF客户端，涵盖了从数据库设计、业务逻辑处理到前端展示等多个方面。文中不仅提供了具体的代码示例，还深入剖析了系统的技术难点，如Oracle数据库的高效连接方式、多线程处理、实时数据推送以及高级特性（如分区表、压缩技术和批量操作）的应用。此外，作者还分享了一些关于系统部署和维护的经验。适合人群：主要面向拥有五年以上.NET开发经验的专业人士，特别是那些对Oracle数据库有一定了解并且参与过大中型项目开发的技术人员。使用场景及目标：①帮助开发者深入了解MES系统的工作原理和技术实现；②为现有的MES系统提供优化思路；③作为学习资料，用于掌握.NET框架与Oracle数据库的最佳实践。其他说明：尽管缺少完整的安装说明和数据库备份文件，但凭借丰富的代码片段和技术细节，这套源码仍然是一个宝贵的学习资源。同时，文中提到的一些技术点也可以应用于其他类型的工业控制系统或企业管理信息系统。

lesson6_点阵.zip: lesson6_点阵.zip

jicmp（OpenNMS所需重要组件）: ‌OpenNMS 依赖组件 jicmp 的完整解析与安装指南‌ ‌一、jicmp 的核心作用‌ ‌ICMP 协议支持‌ jicmp（Java Interface for ICMP）是 OpenNMS 实现网络设备可达性检测（如 Ping）的关键组件，通过原生代码高效处理 ICMP 报文，替代纯 Java 实现的性能瓶颈17。 ‌依赖版本要求‌：OpenNMS 33.1.5 需 jicmp >= 3.0.0，以支持 IPv6 及多线程优化7。 ‌与 jicmp6 的协同‌ jicmp6 是 jicmp 的扩展组件，专用于 IPv6 网络环境检测，二者共同构成 OpenNMS 网络监控的底层通信基础78。 ‌二、jicmp 安装问题的根源‌ ‌仓库版本不匹配‌ OpenNMS 官方旧版仓库（如 opennms-repo-stable-rhel6）仅提供 jicmp-2.0.5 及更早版本，无法满足新版 OpenNMS 的依赖需求78。 ‌典型错误‌：Available: jicmp-2.0.5-1.el6.i386，但 Requires: jicmp >= 3.0.07。 ‌手动编译未注册到包管理器‌ 手动编译的 jicmp 未生成 RPM 包，导致 yum 无法识别已安装的依赖，仍尝试从仓库拉取旧版本57。 ‌三、解决方案：正确安装 jicmp 3.0‌ ‌通过源码编译生成 RPM 包‌ bash Copy Code # 安装编译工具链 yum install -y rpm-build checkinstall gcc-c++ autoconf automake libtool # 编译并生成 jicmp-3.0.0 RPM wget https://sourceforge.net/projects/opennms/files/JICMP/stable-3.x/j

机械CAD零件图.ppt: 机械CAD零件图.ppt

制冷站智能群控管理系统的技术实现与优化: 内容概要：本文详细介绍了制冷站智能群控管理系统的构成及其核心技术实现。首先阐述了系统的四大组成部分：环境感知模块、数据处理模块、决策控制模块以及设备控制模块。接着通过具体的Python代码示例展示了如何利用MQTT协议进行设备间的通信，实现了温度控制等功能。此外，文中还探讨了数据处理中的噪声过滤方法、设备控制中的状态锁定机制、以及采用强化学习进行能效优化的具体案例。最后展望了未来的发展方向，如引入能量管理和AI集成等。适合人群：从事制冷站自动化控制领域的工程师和技术人员，尤其是对智能群控管理系统感兴趣的从业者。使用场景及目标：适用于希望提升制冷站自动化水平的企业和个人。目标在于提高系统的稳定性和效率，减少人为干预，实现节能减排。其他说明：文章不仅提供了理论性的介绍，还有大量的实战经验和代码片段分享，有助于读者更好地理解和应用相关技术。

CNN卷积神经网络FPGA加速器实现：从软件到硬件的深度学习部署: 内容概要：本文详细介绍了将卷积神经网络(CNN)从软件到硬件的全过程部署，特别是在FPGA上的实现方法。首先，作者使用TensorFlow 2构建了一个简单的CNN模型，并通过Python代码实现了模型的训练和权值导出。接着，作者用Verilog手写了CNN加速器的硬件代码，展示了如何通过参数化配置优化加速效果。硬件部分采用了滑动窗口和流水线结构，确保高效执行卷积操作。此外，文中还讨论了硬件调试过程中遇到的问题及其解决方案，如ReLU激活函数的零值处理和权值存储顺序的对齐问题。最后，作者强调了参数化设计的重要性，使得硬件可以在速度和面积之间灵活调整。适合人群：对深度学习和FPGA感兴趣的开发者，尤其是有一定编程基础和技术背景的研究人员。使用场景及目标：适用于希望深入了解CNN算法硬件实现的人群，目标是掌握从软件到硬件的完整部署流程，以及如何通过FPGA加速深度学习任务。其他说明：文中提供了详细的代码片段和调试经验，有助于读者更好地理解和实践。同时，项目代码可在GitHub上获取，方便进一步研究和改进。

无人驾驶车辆高速MPC控制：基于MATLAB与CarSim的双移线场景复现: 内容概要：本文详细介绍了无人驾驶车辆高速MPC（模型预测控制）控制系统的复现过程，主要涉及MATLAB和CarSim软件工具的应用。作者通过调整caraim文件、构建Simulink控制逻辑以及优化MPC算法，将原有的直线跟车场景成功转换为双移线场景。文中不仅展示了具体的技术实现步骤，如路径点设置、权重矩阵调整、采样时间对齐等，还分享了调试过程中遇到的问题及其解决方案，如参数不匹配、模型不收敛等。最终实现了车辆在虚拟环境中按预定双移线轨迹行驶的目标。适合人群：从事无人驾驶车辆研究和技术开发的专业人士，尤其是对MPC控制算法感兴趣的工程师。使用场景及目标：适用于需要深入了解无人驾驶车辆控制系统的设计与实现的研究人员和技术开发者。目标是帮助读者掌握如何利用MATLAB和CarSim进行无人驾驶车辆的模拟实验，特别是在高速场景下的双移线控制。其他说明：文章强调了MPC在高速场景下的挑战性和调参技巧，提供了宝贵的实践经验。同时提醒读者注意环境配置、控制器核心代码解析以及联合仿真可能出现的问题。

监控场景下基于CLIP的细粒度目标检测方法.pdf: 监控场景下基于CLIP的细粒度目标检测方法.pdf

MATLAB频谱与功率谱分析：从理论到实践的全面解析: 内容概要：本文详细介绍了如何使用MATLAB进行频谱和功率谱分析，涵盖了从基础概念到高级应用的各个方面。首先，通过生成人工信号并绘制时域图，帮助读者熟悉基本操作。接着，深入探讨了频谱分析的关键步骤，如快速傅里叶变换（FFT）、窗口函数的选择、频谱横坐标的正确转换等。对于功率谱分析，则介绍了Welch法及其具体实现。针对真实数据处理，讨论了如何读取外部数据、处理非均匀采样、去除趋势项等问题，并提供了多种实用技巧，如滑动平均、自动标注主要频率成分等。此外，还强调了一些常见的错误和注意事项，确保读者能够避免常见陷阱。适用人群：适用于具有一定MATLAB基础的科研人员、工程师和技术爱好者，特别是那些从事信号处理、通信工程、机械振动分析等领域的人士。使用场景及目标：① 学习如何使用MATLAB进行频谱和功率谱分析；② 掌握处理实际工程中复杂信号的方法；③ 提高对信号特征的理解能力，以便更好地应用于故障诊断、质量检测等实际工作中。其他说明：文中提供的代码片段可以直接用于实践，读者可以根据自己的需求进行适当修改。通过跟随文中的步骤，读者不仅能够学会如何绘制频谱图和功率谱图，还能深入了解背后的数学原理和技术细节。标签1,MATLAB,频谱分析,功率谱,Welch法,FFT

基于FAST与MATLAB/Simulink的5MW风力发电机PID变桨控制联合仿真研究: 内容概要：本文详细介绍了基于FAST与MATLAB/Simulink联合仿真平台，对5MW非线性风力发电机进行统一变桨(CPC)和独立变桨(IPC)控制策略的研究。首先，通过将OpenFAST编译成Simulink可调用的S-Function模块，构建了联合仿真环境。接着，分别实现了统一变桨和独立变桨的PID控制器，并在三维湍流风场中进行了性能测试。结果显示，独立变桨在转速稳定性和载荷控制方面表现出色，能够显著降低叶根挥舞弯矩和偏航力矩，从而提高风机的可靠性和使用寿命。然而，独立变桨也带来了作动器磨损增加的问题。适合人群：从事风电控制系统设计、仿真建模以及希望深入了解变桨控制策略的研发工程师和技术研究人员。使用场景及目标：适用于需要评估不同变桨控制策略在复杂风场条件下的性能表现，优化风机运行效率和可靠性，以及探索新的控制算法的应用场景。其他说明：文中提供了详细的模型搭建步骤、关键代码片段和仿真结果分析，并附有相关参考文献和GitHub资源链接，方便读者进一步深入研究。

基于S7-200 PLC和组态王的Z35摇臂钻床控制系统设计与实现: 内容概要：本文详细介绍了如何利用S7-200 PLC和组态王软件对Z35摇臂钻床进行控制系统升级改造。主要内容涵盖IO分配、梯形图编程、接线图与原理图设计以及组态王的画面制作。通过合理的IO分配确保信号正确传递，梯形图编程实现了各种控制逻辑，如摇臂上升/下降、主轴启动/停止等，并加入了互锁机制保障安全性。接线图展示了PLC与外部设备的具体连接方式，而原理图则揭示了整个系统的运作机制。组态王创建的人机界面使得操作更加直观便捷。适合人群：从事工业自动化领域的工程师和技术人员，特别是那些熟悉PLC编程和HMI开发的专业人士。使用场景及目标：适用于需要对老旧机械设备进行现代化改造的企业或单位，旨在提高生产设备的安全性和工作效率，降低维护成本。其他说明：文中提供了多个具体的实例和技巧，帮助读者更好地理解和应用相关技术和方法。此外，还分享了一些调试过程中遇到的问题及其解决方案，为实际项目的实施提供宝贵的参考经验。

基于单片机的时钟温度设计(51+12641+1302+18B20+KEY4)#0090: 包括：源程序工程文件、Proteus仿真工程文件、论文材料、配套技术手册等 1、采用51/52单片机作为主控芯片； 2、采用12864液晶显示：日期、星期、时间、温度； 3、采用DS1302时钟芯片； 4、采用18B20温度传感器； 5、通过按键可以进行调时；

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论