MR中Hbase的Scan使用技巧 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1249296 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

MR中Hbase的Scan使用技巧

博客分类：

MapReduce

阅读更多

Hadoop的MR运算中，Hbase可以作为输入数据源参与运算，其中作为HTable的迭代器Scan有几个使用技巧

涉及的方法如下：

public void setBatch(int batch)
public void setCaching(int caching)
public void setCacheBlocks(boolean cacheBlocks)

public void setBatch(int batch) ：

为设置获取记录的列个数，默认无限制，也就是返回所有的列

public void setCaching(int caching)：

每次从服务器端读取的行数，默认为配置文件中设置的值

public void setCacheBlocks(boolean cacheBlocks)：

为是否缓存块，默认缓存，我们分内存，缓存和磁盘，三种方式，一般数据的读取为内存->缓存->磁盘，当MR的时候为非热点数据，因此不需要缓存

因此在MR的时候最好设置如下：

scan.setCacheBlocks(false);
scan.setCaching(200);//大了占内存，但是rpc少
scan.setBatch(6);//你需要的列

0
顶

3
踩

分享到：

mahout常用距离一览表 | Tomcat中采用HTTPS访问

2013-04-25 17:44
浏览 4275
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MR程序Bulkload数据到hbase: 通过学习和理解这些代码，你可以更好地掌握如何在实际生产环境中使用MapReduce进行HBase的数据批量导入。在具体操作时，需要注意数据的正确性、性能优化以及错误处理，以确保数据加载的稳定性和高效性。

Hbase的JavaAPI: 在Java中使用HBase，首先要建立与HBase服务器的连接。这通常通过`HBaseConfiguration.create()`方法创建一个配置对象，然后设置相关配置，如Zookeeper地址（`HBASE_ZOOKEEPER_QUORUM`），端口（`HBASE_ZOOKEEPER_...

hadoop中Map-Reduce使用示例，输入(DBInputFormat),输出(DBOu-MR_HBase.zip: 这个示例，"MR_HBase-Hadoop中的MapReduce使用示例，输入(DBInputFormat)，输出(DBOutputFormat)"，主要展示了如何利用MapReduce与HBase进行交互，进行数据的读取和写入。下面将详细介绍相关的知识点。 1. **...

HBase最佳实践–Scan用法大观园: 本文来自于范欣欣,文章主要从原理实践及场景介绍的，图文说明详细，希望对大家有帮助。HBase从用法的角度来讲其实乏陈可善，...HBase中Scan从大的层面来看主要有三种常见用法：ScanAPI、TableScanMR以及SnapshotScanMR

HbaseTemplate 操作hbase: 在IT行业中，尤其是在大数据处理领域，HBase是一个广泛使用的分布式、高性能、列式存储的NoSQL数据库。HBase是建立在Hadoop文件系统（HDFS）之上，为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data...

HBase in Practise: 性能、监控和问题排查: HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和...

HBase上使用SQL查询Phoniex.zip: Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集，对于简单查询来说，性能甚至胜过Hive。标签：Phoniex

大数据实验Hbase安装部署和使用javaapi调用.pdf: 实验中使用的Hadoop版本为3.2.0，HBase版本为2.2.1，JDK版本为jdk-13，IDE为Eclipse 4.3。首先，为了确保安装过程的顺利进行，建议预先独立安装Zookeeper，而不是依赖HBase自带的版本。这有助于避免可能出现的问题...

HBase使用的jar包: 为了在Hadoop项目中使用HBase进行明细查询，我们需要依赖特定的jar包。这些jar包包含了HBase运行所需的所有类库和函数，使得开发者可以在应用程序中调用HBase的相关API来操作数据。首先，我们要理解HBase的架构。...

大数据开发之Hbase基本使用及存储设计实战教程（视频+笔记+代码）: │ Day15[Hbase 基本使用及存储设计].pdf │ ├─02_视频 │ Day1501_Hbase的介绍及其发展.mp4 │ Day1502_Hbase中的特殊概念.mp4 │ Day1503_Hbase与MYSQL的存储比较.mp4 │ Day1504_Hbase部署环境准备.mp4 │ Day...

hbase性能测试.docx: 在对HBase进行性能测试时，我们关注的关键指标包括数据读写...通过对这些指标的分析，我们可以评估HBase在处理大量数据时的性能瓶颈，例如I/O速度、内存使用效率、MapReduce任务的优化空间等，从而为系统调优提供依据。

hbase安装与使用: ### HBase 安装与使用知识点详解 #### 概述 HBase 是一款构建于 Hadoop 之上的分布式、可扩展的大规模数据存储系统。它提供了类似 Google BigTable 的功能特性，非常适合处理海量数据和高并发读写需求的应用场景。...

hbase 完全使用手册: 在使用 HBase 时，用户需要熟悉 HBase Shell 命令行工具或者 HBase 提供的 Java API 来进行数据的读写操作。HBase Shell 提供了一个交互式的界面，允许用户执行数据操作、管理表结构、以及维护集群状态等。Java API ...

hbase安装和使用: 还可以使用`scan`命令进行范围扫描，`scan 'myTable', {COLUMNS => ['cf:qualifier']}`。 5. **表管理**：使用`disable 'myTable'`和`enable 'myTable'`来禁用或启用表，`delete 'myTable'`来删除表。 6. **Region...

WordCount,HBase MR样例代码: “HBase MR样例代码”则指的是使用Hadoop的MapReduce框架来操作HBase，HBase是一个基于Google的Bigtable论文设计的开源NoSQL数据库，运行在Hadoop之上。HBase提供高吞吐量的数据读写能力，适合存储非结构化和半结构...

HBASE使用指南: 3. **查询数据**：使用`get '表名', '行键'`获取指定行的数据，或者使用`scan '表名'`扫描整个表的数据。 4. **删除数据**：通过`delete '表名', '行键', '列族:列'`删除特定行的指定列数据，`deleteall '表名', '...

Hbase 官方中文文档: HBase官方中文文档概述了Apache HBase TM的基本概念、配置方法、升级策略、shell使用、数据模型、架构设计、安全机制、API接口、性能调优以及故障排除等多方面的知识。HBase是一个开源的非关系型分布式数据库（NoSQL...

Hbase 安装与基本使用: 1. **启动HBase**：在命令行中，使用`start-hbase.sh`脚本启动HBase集群。如果是单机模式，可以使用`start-hbase.sh --nonInteractive`避免交互式确认。 2. **检查状态**：通过`hbase zkcli -server localhost:2181`...

CDH-Hbase的安装1: 在本文中，我们将深入探讨HBase的安装过程及其在CDH环境中的集成。HBase是Apache Hadoop生态系统中的一个核心组件，它是一个分布式、版本化的、支持列族的NoSQL数据库，特别适合处理大规模的数据存储。CDH（Cloudera...

hbase用于查询客户端工具: Phoenix将SQL语句转换为HBase的Scan操作，适合那些习惯使用SQL语法的开发人员。Phoenix支持索引、连接、子查询等特性，提高了开发效率。 5. **HBAdmin**：HBAdmin是HBase的管理工具，用于执行管理任务，如创建、...

Global site tag (gtag.js) - Google Analytics