- 浏览: 347705 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
lvyuan1234:
你好,你那个sample.txt文件可以分享给我吗
hive insert overwrite into -
107x:
不错,谢谢!
hive 表的一些默认值 -
on_way_:
赞
Hadoop相关书籍 -
bupt04406:
dengkanghua 写道出来这个问题该怎么解决?hbase ...
Unexpected state导致HMaster abort -
dengkanghua:
出来这个问题该怎么解决?hbase master启动不起来。
Unexpected state导致HMaster abort
HDFS的NIO有一些相关的知识偶尔需要注意下:
(1) 使用了堆外内存
Control direct memory buffer consumption by HBaseClient
https://issues.apache.org/jira/browse/HBASE-4956
standard hbase client, asynchbase client, netty and direct memory buffers
https://groups.google.com/forum/?fromgroups=#!topic/asynchbase/xFvHuniLI1c
I thought I'd take a moment to explain what I discovered trying to track down serious problems with the regular (non-async) hbase client and Java's nio implementation.
- If the amount being read is < 8k, it uses a native char array on the C stack for the read system call, and then copies the result into your Java buffer.
- If the amount being read is > 8k, the JDK calls malloc, does the read system call with that buffer, copies the result into your Java buffer, and then calls free.
http://hllvm.group.iteye.com/group/topic/27945
http://www.ibm.com/developerworks/cn/java/j-nativememory-linux/
http://www.kdgregory.com/index.php?page=java.byteBuffer
https://issues.apache.org/jira/browse/HADOOP-8069
In the Server implementation, we write with maximum 8KB write() calls, to avoid a heap malloc inside the JDK's SocketOutputStream implementation (with less than 8K it uses a stack buffer instead).
(2) 使用了比较多的文件句柄(fd)
http://www.zeroc.com/forums/bug-reports/4221-possible-file-handle-leaks.html
http://code.alibabatech.com/blog/experience_766/danga_memcached_nio_leak.html
https://issues.apache.org/jira/browse/HADOOP-4346
根据https://issues.apache.org/jira/browse/HADOOP-2346所说一个
一个selector takes up 3 fds: 2 for a pipe (used for {{wakeup()}, I guess) and for epoll().
$ jps 30255 DataNode 14118 Jps $ lsof -p 30255 | wc -l 35163 $ lsof -p 30255 | grep TCP | wc -l 8117 $ lsof -p 30255 | grep pipe | wc -l 16994 $ lsof -p 30255 | grep eventpoll | wc -l 8114 8117 + 8114 + 16994 = 33225 $ jstack 30255 | grep org.apache.hadoop.hdfs.server.datanode.DataXceiver.run | wc -l 8115
测试环境DataNode出现有很多pipe和eventpoll
For writes, there is an extra thread waiting on i/o. So it would be 3 fds more. To simplify earlier equation, on the client side : for writes : max fds (for io bound load) = 7 * #write_streams for reads : max fds (for io bound load) = 4 * #read_streams The main socket is cleared as soon as you close the stream. The rest of fds stay for 10 sec (they get reused if you open more streams meanwhile).
发现HFile很多,删除了一些无用文件后
$ lsof -p 30255 | grep pipe | wc -l 982 $ lsof -p 30255 | wc -l 3141 $ jstack 30255 | grep org.apache.hadoop.hdfs.server.datanode.DataXceiver.run | wc -l 139
发表评论
-
hadoop
2017-08-01 13:42 0audit log配置 http://hack ... -
hbase flush前提: 等待相关事务都完成
2016-07-04 16:40 1065DefaultMemStore: @Override ... -
turn log on/off
2015-10-21 10:06 0wget -q "http://hostna ... -
hbase的一些语义
2014-06-04 16:39 1114hbase里面对一行操作前会加锁。 http://had ... -
Unexpected state导致HMaster abort
2014-01-09 11:44 2716线上和开发集群都遇到过master abort的情况,而且 ... -
hbase build Too many unapproved licenses
2013-12-30 16:02 2358[ERROR] Failed to execute ... -
hbase hbck 导致的multi assign
2013-12-25 18:03 1672http://hbase.apache.org/book. ... -
HBase Log Split 配置相关
2013-12-15 16:54 1568(1)HMaster SplitLogManager ... -
hbase jmx
2013-12-11 20:42 2940conf/hbase-env.sh 里面配了 JMX后就可 ... -
hbase bulk多family,锁住region
2013-10-29 15:14 1226HBase在bulk 多family的数据时,会获得整个r ... -
Too many fetch failures
2013-10-29 10:42 1427http://lucene.472066.n3.na ... -
Phoneix
2013-10-22 11:42 1502https://github.com/forcedotco ... -
hbase RowCounter 使用
2013-10-15 16:48 5925hbase org.apache.hadoop.hb ... -
cdh3集群 distcp 数据到 cdh4集群
2013-09-26 21:54 1106从cdh3集群 distcp 数据到 cdh4集群上面 ... -
hbase add table
2013-09-26 21:49 1339把table数据从一个集群移动到另外一个集群 (1) ... -
hbase shell
2013-09-26 11:18 1667hbase shell 命令 mvn cle ... -
cdh4 vs cdh3 client处理DataNode异常的不同
2013-09-13 21:13 2209cdh4在处理pipeline中的错误时,逻辑上与原先不一 ... -
hdfs 升级,cdh3 升级 cdh4
2013-08-05 18:09 2195Step 1: 做下saveNamespace操作,停掉集 ... -
hbase snapshot
2013-06-06 16:40 2175Snapshot: (1) take a sn ... -
hbase split 导致compact abort的日志
2013-06-06 16:37 34772013-06-06 14:58:43,131 INF ...
相关推荐
class org.apache.hadoop.hbase.backup.HFileArchiver$FileablePath, file:hdfs://nameservice1/hbase/data/default/RASTER/92ceb2d86662ad6d959f4cc384229e0f/i, class org.apache.hadoop.hbase.backup....
3_java基础知识-循环-类型转换 4_循环-函数-数组-重载 5_多为数组-冒泡-折半-选择排序 6_oop-封装-继承-static-final-private 7_多态-接口-异常体系 8_适配器/ k% N! Y7 j/ |- c) O5 M' V6 S 9_多线程-yield-join-...
6. **分布式系统与云计算**:面试中可能会涉及到Zookeeper(分布式协调服务)、Kafka(消息队列)、HBase(分布式列式存储)以及云计算平台如AWS,Azure或Google Cloud的相关知识。 7. **算法与数据结构**:熟练...
1. **Hadoop**:分布式存储系统HDFS,MapReduce编程模型,HBase和Hive等数据处理工具。 2. **Spark**:快速计算框架,Spark Core、Spark SQL、Spark Streaming和MLlib等模块的应用。 3. **Storm**:实时流处理系统...
DFSClient是HDFS的客户端组件,它通过网络协议与HDFS进行交互,使用NIO、RPC和Socket等技术。 MapReduce是Hadoop中用于处理大规模数据集的编程模型。它将计算任务分解为Map(映射)和Reduce(归约)两个阶段,并...
- 通信基于NIO实现,保证了高吞吐量和低延迟。 #### 四、Kafka+Flume-ng搭建步骤 1. **安装与配置依赖**: - 在系统运行环境或Flume-ng的lib目录(例如`/usr/lib/flume-ng/lib/`)下添加必要的JAR包。 - `flume...
Java面试题库通常涵盖了大量的知识点,从基础概念到高级技术,再到大数据相关的问题。这份"面试题库(368题).zip"文件显然包含了368个问题,旨在帮助求职者准备全面的Java面试。以下是根据描述和标签可能包含的一些...
4. **HBase**:HBase是一个列式存储系统,基于Hadoop的HDFS。它适用于存储结构化的大量数据,并能支持按列族进行快速查询。对于历史日志数据,HBase提供长期存储和冷数据检索能力。 日志客户端的设计考虑了效率和...
根据提供的信息,我们可以总结出以下相关的大数据及Java架构师领域的关键知识点: ### 一、Hadoop **Hadoop** 是一个能够对大量数据进行分布式处理的软件框架,它能够可靠地存储和处理PB级别的数据。Hadoop的核心...
9. **Hadoop相关**:对于HDFS、YARN的理解,以及MapReduce的执行流程,包括split、map、shuffle、reduce等阶段,是考察大数据基础的重要部分。 10. **NoSQL数据库**:如HBase、Cassandra等,面试者应了解其基本概念...
1. **Hadoop企业面试题.xmind**:这部分内容可能涵盖了Hadoop生态系统的基础知识,包括HDFS(Hadoop Distributed File System)的原理和操作,MapReduce的执行模型,YARN资源调度器的工作机制,以及HBase、Hive、Pig...
4. HBase:掌握NoSQL数据库HBase的使用,适合大规模半结构化数据存储。 5. 数据清洗与预处理:学习数据清洗技巧,如异常值处理、缺失值填充。 6. 数据分析与挖掘:运用统计学方法和机器学习算法进行数据建模和预测。...
接触大数据处理框架(如Hadoop、Spark、Flink)及相关的存储系统(如HDFS、HBase)。 最后,除了技术知识,架构师还需要具备良好的沟通能力、问题解决能力和战略思维。不断学习新技术,关注行业动态,积极参与社区...
理解HDFS分布式文件系统、MapReduce编程模型,以及Spark的RDD、DataFrame、DataSet API,和Flink的DataStream、DataSet API,能帮助开发者实现高效的数据处理。 6. **数据结构与算法**:面试中常考的包括排序算法...
7. **数据存储与文件格式**:了解HDFS、HBase等分布式存储系统,以及CSV、JSON、Avro、Parquet等大数据常用的文件格式。 8. **数据分析与可视化**:掌握基本的数据分析方法,如描述性统计、回归分析、时间序列分析...
Java中的RPC框架如Hadoop的HDFS、Apache Thrift、Google的gRPC以及阿里巴巴的Dubbo等,都是分布式系统中不可或缺的组件。理解RPC的工作原理、服务发现机制、序列化和反序列化过程对于实现高效的跨网络调用至关重要。...
你需要熟悉类、对象、封装、继承、多态等面向对象编程概念,以及异常处理、集合框架(如ArrayList、LinkedList、HashMap等)、IO流和NIO、线程和并发。 2. **数据库管理**:数据工程师需要掌握SQL,用于查询和操作...
Java大数据学习路线旨在帮助开发者掌握Java编程基础以及大数据技术,为从事相关项目开发做准备。以下是一些关键知识点的详细说明: 1. **Java基础**(45天): - **Java网络编程**:理解Socket编程,TCP/IP协议,...
客户端数据则通过HTTP(s)上报,经过Lancer-Gateway统一接收并写入Kafka缓冲区,最后分发到HDFS、HIVE、ES、HBASE等存储层。离线流则依赖于Sqoop实现数据库批量同步。 Flume作为数据网关层和分发层的基础,是一个...
- 网络连接类型(连接与短连接)和相关框架,如零拷贝(Zero-copy)和序列化(如Hessian、Protobuf)。 8. **数据库**: - 数据库基础理论,如设计的三大范式,MySQL的原理、InnoDB引擎、优化、索引(聚集与非...