`

hadoop讨论

 
阅读更多
雪候鸟<xuqi86@gmail.com>  9:46:08
hadoop只是降低了分布式开发的门槛,只需要调用map reduce接口,就能写一个在一个很大数据集上跑的分布式程序,但它效率并不高,一个进程动辄占几个G。这也是为什么百度自己实现一套hadoop。但它还是可以满足大多数公司处理大数据的需要,我觉得结合业务设计一个好的mr很重要,也很难。
乄信念ヤ(244985220)  9:47:22
pig的mapreduce模式必须将pig部署在hadoop节点上吗?
寒塘草(957261640)  9:49:02
hive也许更适合我,不知道其性能到底能不能达到web交互模式的应用开发?
雪候鸟<xuqi86@gmail.com>  9:51:38
hive是秒级响应的吧
storm是实时的
寒塘草(957261640)  9:52:50
我那天测试了下,才一点点数据,hive查询就22秒
寒塘草(957261640)  9:53:31

KeepItSimple<amazement@yeah.net>  9:54:04
一个进程动辄占几个G
雪候鸟<xuqi86@gmail.com>  9:54:06
hive貌似除了select *,其他都是起MR,启动个MR都要几秒钟,不太适合实时的查询
寒塘草(957261640)  9:54:11
这种效率,对于web系统是要命的
KeepItSimple<amazement@yeah.net>  9:54:21
这话怎么理解?雪候鸟
寒塘草(957261640)  9:54:51
难道hadoop只能用于后台数据挖掘了?
雪候鸟<xuqi86@gmail.com>  9:56:07
默认配置namenode和jobtracker都要1个G,而且如果集群大的话,还要把namenode和jobtracker分开,非常耗资源,hbase就更耗资源了,16G的机器很难跑
寒塘草(957261640)  9:56:43
hive不是基于hbase吗?
雪候鸟<xuqi86@gmail.com>  9:56:48
有时候2个oracle搞定的事情,用hbase要5台
雪候鸟<xuqi86@gmail.com>  9:57:14
没研究过,我就看看了user guide。。。
寒塘草(957261640)  9:58:44
namenode能不能自动镜像备份?否则namenode坏了怎么办,集群系统一旦namenode坏了,不要了命去了
寒塘草(957261640)  9:59:36
一旦namenode 不可恢复,那些datanode都是废物了吧?
雪候鸟<xuqi86@gmail.com>  10:01:06
有好几种备份方式,但都是冷备,只有facebook那种方式是热备,可是我们用的hadoop版本和它相差很多了,升级需要改很多东西
我们公司有个牛逼人在做虚拟机热备,还在试验,貌似可以解决namenode备份问题
寒塘草(957261640)  10:01:57
冷备就不用考虑了,现在没人愿意用冷备
寒塘草(957261640)  10:03:51
看来没几个公司能用得起hadoop的,离现实还有很长的路要走?
雪候鸟<xuqi86@gmail.com>  10:04:04
小数据基本还是冷备的,namenode加载20PB需要一个小时,我们数据量不到1PB,而且用checkpoint方式可以保证数据安全
寒塘草(957261640)  10:04:06
敢用
蓝晓宇^^(瑜)(33445185)  10:04:44
hbase你用小数据去测试,那个响应时间是完全达不到要求的
寒塘草(957261640)  10:05:35
难道越大越快?我还以为只是大的话不会明显变慢而已
蓝晓宇^^(瑜)(33445185)  10:05:36
HBASE我了解不深,但是之前在CSDN上看过几篇关于HBASE性能探讨的文章,基本有一个观点,当你的存储量没有打到1亿条时,还是老实的关系型数据库吧
蓝晓宇^^(瑜)(33445185)  10:05:50
因为是基于列的
蓝晓宇^^(瑜)(33445185)  10:05:59
所以才会越大越快
蓝晓宇^^(瑜)(33445185)  10:06:12
关于HBASE,用得比较好的就是TAOBAO了
蓝晓宇^^(瑜)(33445185)  10:06:23
百度搞的什么HYBERBASE
寒塘草(957261640)  10:07:10
问题是3年数据量可能达不到,但是,5,10年数据量就达到了,难道非得等系统运行几年后再去重写?
蓝晓宇^^(瑜)(33445185)  10:07:28
那你就不要用HBASE啊
雪候鸟<xuqi86@gmail.com>  10:07:49
额,如果用oracle能解决,最好还是用oracle,hbase非常不稳定
寒塘草(957261640)  10:08:13
非常不稳定?
蓝晓宇^^(瑜)(33445185)  10:08:18
HADOOP提供一个叫Sqxx的东西用于将关系型数据库的数据导出到HDFS里
雪候鸟<xuqi86@gmail.com>  10:08:34
0.90版本split过程经常会有丢region块的问题
雪候鸟<xuqi86@gmail.com>  10:08:41
sqoop
蓝晓宇^^(瑜)(33445185)  10:08:52
我用的0.92.1的貌似还好。。
寒塘草(957261640)  10:09:26
光导出不行啊,要在线服务的那种 hdfs下的"云oracle"
雪候鸟<xuqi86@gmail.com>  10:09:41
恩,我们考虑用cloudera的cdh4b2,这个是用的0.92,目前的项目还是用的cdh3u1
蓝晓宇^^(瑜)(33445185)  10:09:57
雪候鸟,你们公司有在用HADOOP?北京没多少公司在用,貌似都是些大公司。
寒塘草(957261640)  10:10:31
大公司估计也没几家敢用
雪候鸟<xuqi86@gmail.com>  10:10:34
额,我们公司是网安行业,数据量非常大,实时性不高
雪候鸟<xuqi86@gmail.com>  10:11:29
北京大概一天20T,其他地方也有几T
蓝晓宇^^(瑜)(33445185)  10:11:39
你们招人不,我迫切需要HADOOP,HBASE之类的实习啊,在整个学院的研究生里,就我一个在弄,导师们都不懂,真孤独啊。
蓝晓宇^^(瑜)(33445185)  10:12:02
一天20T那是必须要用了。。
雪候鸟<xuqi86@gmail.com>  10:12:35
我们招人。。。来吗,马上要去东莞出差,去两个月
现在还有2个NOSQL的名额
VISION(929596182)  10:13:31
在哪里呢

【提示:此用户正在使用Q+ Web: http://web.qq.com/】
寒塘草(957261640)  10:13:38
我看你可以去研究2个月
雪候鸟<xuqi86@gmail.com>  10:13:57
北京
乄信念ヤ(244985220)  10:14:01
估计他们不要实习生
雪候鸟<xuqi86@gmail.com>  10:14:07

分享到:
评论

相关推荐

    Hadoop讨论题

    云计算与大数据 hadoop讨论题

    hadoop的hadoop.dll和winutils.exe下载

    接着,我们讨论`winutils.exe`。这个工具集包含了多种命令,如创建HDFS目录、设置HDFS权限、管理Hadoop守护进程等。在Linux上,这些功能通常由`hadoop`命令行工具完成,但在Windows上,由于操作系统本身的差异,这些...

    hadoop-eclipse-plugin-2.6.0.jar.zip_2.6.0_hadoop_hadoop plugin

    在实际的开发过程中,为了提高效率并减少错误,Hadoop提供了Eclipse插件,即本文讨论的`hadoop-eclipse-plugin-2.6.0.jar`。这个插件是针对Hadoop 2.6.0版本设计的,主要目标是集成Eclipse IDE,使得开发者可以在...

    hadoop2.8.0 eclipse jb51

    标题“hadoop2.8.0 eclipse jb51”表明我们讨论的是Hadoop 2.8.0版本与Eclipse的集成,可能是通过jb51插件来实现。jb51可能是指JBoss Community的某个版本,也可能是一个特定的Eclipse插件或库,用于支持Hadoop开发...

    基于Hadoop的成绩分析系统.docx

    本文介绍了基于Hadoop的成绩分析系统的设计和实现,讨论了Hadoop的特点和MapReduce的应用,介绍了Hadoop集群的搭建过程和成绩分析的实现过程。该系统可以帮助高校更好地管理学生的成绩信息,提高成绩管理的效率和...

    Hadoop总结资料Hadoop1.0.3

    在本资料中,我们重点讨论的是Hadoop的配置以及与Hbase相关的分布式消息系统。 **Hadoop配置** 配置Hadoop涉及设置集群的节点,网络通信,存储和计算资源。在Hadoop1.0.3中,配置文件通常包括`core-site.xml`...

    hadoop2.9.1 winutils.exe hadoop.dll

    标题中的"hadoop2.9.1"指的是Hadoop的版本号,这意味着我们讨论的是Hadoop 2.9.1版本。这个版本可能包含了多个优化和修复,以提供更稳定、高效的分布式存储和计算功能。 `winutils.exe`是Hadoop在Windows上的一个...

    hadoop-eclipse-plugin插件和hadoop.dll和winutile.exe.zip

    在本场景中,我们讨论的是在Windows 10环境下,配合JDK 1.8.0_162和Eclipse 2020-03版本,与Hadoop 2.9.2的兼容性。 1. **Hadoop-Eclipse-Plugin插件**: Hadoop-Eclipse-Plugin是Apache Hadoop项目的一部分,它为...

    hadoop2.7.1-win32.zip

    标签 "hadoop win32 winutils" 明确了讨论的主题:Hadoop在Windows 32位系统上的实现,以及winutils工具的重要性。 在压缩包内的文件名称列表中,我们可以看到以下几个关键文件: 1. `hadoop.dll` 和 `hdfs.dll`:...

    hadoop1.x与hadoop2.x配置异同

    接下来,我们将详细讨论Hadoop的安装过程,以及Hadoop1.x与Hadoop2.x之间的配置差异。 ### Hadoop的安装 #### Hadoop1.x安装 1. **下载Hadoop**:从Apache官方网站(http://www.us.apache.org/dist/hadoop/common)...

    异地多机房Hadoop架构实践.pdf

    在本文中,我们将探讨异地多机房Hadoop架构实践,讨论美团点评的Hadoop多机房服务架构实践和运营实践概述。我们将深入探讨异地多机房Hadoop架构的挑战和解决方案,并讨论美团点评的Hadoop多机房服务架构实践和运营...

    Hadoop经典参考书

    此外,还会讨论Hive,一个基于Hadoop的数据仓库工具,用于数据ETL(提取、转换、加载)和分析。 预Hadoop时代的相关技术也是本书的重点之一。这可能包括早期的分布式计算框架,如GFS(Google File System)和Pregel...

    software_hadoop.zip

    下面将详细讨论Hadoop的相关知识点。 1. **Hadoop架构**:Hadoop的核心由两个主要组件组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是分布式文件系统,用于存储大量数据,而MapReduce则是一种...

    eclipse连接hadoop所需要的hadoop.ddl和eclipse插件和hadoop运行案例

    接下来,我们讨论Eclipse插件。为了在Eclipse中支持Hadoop开发,我们需要安装特定的插件,如Hadoop Eclipse Plugin。这个插件提供了与Hadoop集群交互的功能,例如创建、提交和监控MapReduce作业。它简化了开发过程,...

    hadoop1.0.2 hbase0.94安装

    首先,我们来详细讨论Hadoop 1.0.2的安装。Hadoop是一个开源的分布式文件系统,它的设计目标是能够跨大量廉价硬件节点存储和处理海量数据。在安装Hadoop 1.0.2时,我们需要进行以下几个关键步骤: 1. **环境准备**...

    hadoop权威指南第三版 中文 pdf

    安全章节讨论了认证、授权和加密等话题,确保数据在传输和存储过程中的安全性。监控和优化部分则指导读者如何监控Hadoop集群的性能,以及如何调整参数以提高效率。 最后,书中的“Hadoop权威指南3-书签-中文.pdf”...

    hadoop-2.7.2-win10_x64.7z

    标签 "hadoop" 明确了讨论的主题,Hadoop是一个广泛应用于大数据处理的工具,其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了高容错性的文件存储,而MapReduce则负责大规模数据集的...

    hadoop solutions

    这本书可能详细讨论了如何根据不同的业务需求选择和集成这些工具,以及如何设计高可用性和可扩展性的Hadoop集群。 《Pro Apache Hadoop》则可能更偏重于Apache Hadoop项目本身,包括其核心组件和相关项目的深入理解...

Global site tag (gtag.js) - Google Analytics