查看解析HLog也是HBase本身自带的一个小工具
使用很简单:
$ ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.regionserver.wal.HLog
Usage: HLog <ARGS>
Arguments:
--dump Dump textual representation of passed one or more files
For example: HLog --dump hdfs://example.com:9000/hbase/.logs/MACHINE/LOGFILE
--split Split the passed directory of WAL logs
For example: HLog --split hdfs://example.com:9000/hbase/.logs/DIR
该工具目前就提供了2个功能
dump: 将HLog中的数据完全导出,会比原hlog文件大很多,导出速度比较慢,但是在需要定位数据正确性问题的时候,还是用得着的
split:和Master HLog-Split作用一样,会把一个目录下的hlog文件split成多个region的recovered.edits文件,并会将分割完的hlog文件归档到.oldlogs目录,所以
用这个功能一定要谨慎,好像没啥场景需要用这个功能。。。
工作中用过该工具的场景:
1.数据出现不一致,客户端写入的数据不见啦。。。在早期的HBase版本中,这个问题在我们的测试中出现过多次,这种情况下,你就可以通过该工具来定位,丢失的数据发生在:
a.根本没写入hlog
b.split-log时
c.region replay log时
d.flush时
e.compaction时
a,b,c可以使用该工具来定位,d,e的话可以通过hfile解析工具,
master会定期清理oldlogs目录下的文件,在测试环境中,这个清理周期可以设置的长点
分享到:
相关推荐
总结,HBase备份和数据恢复涉及到多种策略和工具,包括快照、HLog备份和HDFS数据备份。而HBase与Hive的互导以及与HDFS的互导则为大数据分析提供了灵活的数据流转路径。理解和掌握这些知识点对于管理和优化大数据环境...
在可靠性方面,HBase利用HLog进行数据备份,能够在出现故障时快速恢复。在高性能方面,它通过LSM-Tree结构存储数据,实现了高速的随机写入和读取。此外,HBase也支持在线和离线的数据导入,与Hadoop生态系统的其他...
2. **HBase中的Hlog**:在Hbase中,Hlog(现在称为WAL,Write-Ahead Log)是保证系统在错误发生时能及时恢复的关键机制。它记录所有对表的修改,确保数据一致性。 3. **Google Cloud SQL**:这是一个基于MySQL的云...
以腾讯为例,其大数据平台涵盖了数据分析、视频存储、离线日志分析等多种应用场景,利用Hadoop和Hbase等工具构建高效的数据处理架构。公司数据处理平台基础架构通常包括数据采集、数据存储、数据处理和数据服务等...
Hbase的数据模型由HRegionServer、HRegion、Hmemcache、Hlog和HStore等组成,通过这些组件,Hbase能够在大规模数据中实现高效的读写操作。Hbase的列式存储方式使得查询速度得以提升,尤其在处理大数据时,能以秒级...
- **知识点**: HLog(HBase的WALs文件)是一种日志文件,用于记录对HBase表的所有修改。每当对表进行写操作时,这些操作会被先写入HLog,然后再写入MemStore。这样即使在系统崩溃的情况下,通过重放HLog文件也可以...
HBase写数据机制:HBase通过HLog和MemStore保证数据的可靠性,写入流程包括数据首先写入WAL日志,然后写入MemStore,达到一定量后刷写到磁盘。 HDFS与HBase使用场景:HBase适合高并发的随机读写,而HDFS适合高吞吐...