`
bupt04406
  • 浏览: 348386 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

hbase RowCounter 使用

 
阅读更多

 

hbase org.apache.hadoop.hbase.mapreduce.RowCounter   tablename cf:cq

有同学说这个运行出来的结果不对,结果只有几十,而实际上应该有几百万。差别这么大,原因在哪里?

查看代码发现 RowCounter的代码片段

    scan.setFilter(new FirstKeyOnlyFilter());
    if (sb.length() > 0) {
      for (String columnName : sb.toString().trim().split(" ")) {
        String [] fields = columnName.split(":");
        if(fields.length == 1) {
          scan.addFamily(Bytes.toBytes(fields[0]));
        } else {
          scan.addColumn(Bytes.toBytes(fields[0]), Bytes.toBytes(fields[1]));
        }
      }
    }

 这里的scan使用了FirstKeyOnlyFilter,又加上了column的限制。而FirstKeyOnlyFilter的原理是只返回整个row里面的第一个key/value,如果column不是row里面排在第一个的column,那么先会被FirstKeyOnlyFilter给屏蔽掉,然后在查看column,这样导致很多属于这个column的数据都被过滤掉,导致实际结果少很多。

 

 

 

 

 

分享到:
评论

相关推荐

    大数据开发之Hbase基本使用及存储设计实战教程(视频+笔记+代码)

    │ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 │ Day1503_Hbase与MYSQL的存储比较.mp4 │ Day1504_Hbase部署环境准备.mp4 │ Day...

    hbase 完全使用手册

    在使用 HBase 时,用户需要熟悉 HBase Shell 命令行工具或者 HBase 提供的 Java API 来进行数据的读写操作。HBase Shell 提供了一个交互式的界面,允许用户执行数据操作、管理表结构、以及维护集群状态等。Java API ...

    HbaseTemplate 操作hbase

    在IT行业中,尤其是在大数据处理领域,HBase是一个广泛使用的分布式、高性能、列式存储的NoSQL数据库。HBase是建立在Hadoop文件系统(HDFS)之上,为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data...

    hbase安装与使用

    ### HBase 安装与使用知识点详解 #### 概述 HBase 是一款构建于 Hadoop 之上的分布式、可扩展的大规模数据存储系统。它提供了类似 Google BigTable 的功能特性,非常适合处理海量数据和高并发读写需求的应用场景。...

    大数据实验Hbase安装部署和使用javaapi调用.pdf

    【大数据实验Hbase安装部署和使用javaapi调用】 在这个实验中,我们将深入理解HBase在Hadoop生态系统中的角色,并掌握如何在Ubuntu 19.04操作系统上安装、配置和使用HBase,同时利用Java API进行编程。实验中使用的...

    squirrel使用Phoenix连接HBASE附带使用方法.part1.rar

    Hbase图形化客户端工具,squirrel使用Phoenix连接HBASE附带使用方法,还有hive,pig等jar包

    HBASE使用指南

    《HBase使用指南》 HBase,全称为Apache HBase,是基于Google的Bigtable设计思想,构建在Hadoop文件系统(HDFS)之上的分布式列式数据库。它是一个高度可扩展的、高性能的数据库,适合存储大规模结构化数据。本指南...

    HBase使用的jar包

    为了在Hadoop项目中使用HBase进行明细查询,我们需要依赖特定的jar包。这些jar包包含了HBase运行所需的所有类库和函数,使得开发者可以在应用程序中调用HBase的相关API来操作数据。 首先,我们要理解HBase的架构。...

    hbase安装和使用

    本资源主要涵盖了HBase的安装与使用,下面将详细介绍这两个方面。 一、HBase安装 1. **系统需求**:HBase通常运行在Linux环境下,因此首先确保你的服务器或开发环境是Linux。同时,需要安装Java Development Kit ...

    hbase shell使用文档

    这是本人使用hbase shell的部分经验总结,一般的shell使用全部包括了。 版本,压缩,region等需求,以及使用普通shell使用hbase shell

    HBase的使用:包括HBase的解压、配置文件、服务的启动、查看HBabe页面、HBabe Shell操作等等

    本篇文章将深入探讨HBase的使用,包括它的安装、配置、服务启动、Web界面浏览以及通过HBase Shell进行的基本操作。 首先,HBase的安装涉及到文件解压。在虚拟机环境下,通常会将下载的HBase压缩包如`hbase-1.3.1-...

    squirrel使用Phoenix连接HBASE附带使用方法.part2.rar

    Hbase图形化客户端工具,squirrel使用Phoenix连接HBASE附带使用方法,和之前的一个part1,一起使用

    大数据技术基础实验报告-HBase安装配置和应用实践.doc

    - 使用`sudo chown -R hadoop ./hbase`命令更改所有文件的所有权,确保当前用户(这里是`hadoop`)有权限访问。 - 通过`/usr/local/hbase/bin/hbase version`检查HBase版本,成功输出版本信息表明安装完成。 2. *...

    Hbase笔记 —— 利用JavaAPI的方式操作Hbase数据库(往hbase的表中批量插入数据).pdf

    在本文档中,我们将深入探讨如何使用Java API与HBase数据库进行交互,特别是关于如何创建表、修改表结构以及批量插入数据。HBase是Apache的一个分布式、可扩展的大数据存储系统,它基于谷歌的Bigtable设计,适用于...

    Hbase 安装与基本使用

    本文将深入探讨HBase的安装过程以及基本使用方法,旨在帮助初学者快速上手。 **一、HBase简介** HBase是Google Bigtable的开源实现,它在Hadoop文件系统(HDFS)之上构建,提供了高度可扩展性和实时读写能力。HBase...

    HBase基本使用ppt

    ### HBase基本使用知识点概述 #### 一、HBase的背景与重要性 - **传统RDBMS的局限性**:传统的关系型数据库(如SQL)在处理中小规模数据时表现良好,但在面对TB或PB级别的大数据时,由于数据量过大,导致性能瓶颈...

    HBase入门与使用

    ### HBase入门与使用 HBase作为Apache Hadoop生态系统中的一个关键组件,提供了一种分布式、版本化的非关系型数据库,特别适用于大规模数据处理。它借鉴了Google Bigtable的设计理念,能够实现在廉价硬件上存储PB...

    基于springboot集成hbase过程解析

    下面是一个使用注解方式配置HBase的示例: ```java @Configuration public class HBaseConfiguration { @Value("${hbase.zookeeper.quorum}") private String zookeeperQuorum; @Value("${hbase.zookeeper....

    HBase基本操作 Java代码

    HBase基本操作 增删改查 java代码 要使用须导入对应的jar包

    hbase使用所需资源

    综上所述,整合SpringBoot和HBase涉及到资源管理、HBase部署、Spring Data HBase的使用等多个层面。正确配置和管理这些资源对于实现稳定、高效的HBase应用至关重要。通过持续学习和实践,我们可以更好地驾驭这两个...

Global site tag (gtag.js) - Google Analytics