`
weijinxian
  • 浏览: 29541 次
  • 性别: Icon_minigender_2
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop备忘

阅读更多
available forums:
http://bbs.hadoopor.com
http://www.hadoopor.com
http://forum.hadoopor.com
available blogs:
http://blog.chinaunix.net/u3/105041/ 分析源码
http://caibinbupt.iteye.com/       分析源码
http://jimey.com/?cat=2226
http://blog.5188la.net/category/my-research/cloud-computing/hadoop-cloud-computing-my-research/
available books:
hadoop-the definitive guide
pro hadoop

1.hadoop0.20.0 + eclipse环境搭建http://bbs.hadoopor.com/thread-43-1-1.html
台湾一个人写的,很好。hadoop0.20.0 + eclipse环境搭建http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617教怎么打包成jar,制作jar包
注意里面的那个Makefile文件“jar -cvf ${JarFile} -C bin/ .”
”hadoop jar ${JarFile} ${MainFunc} input output“等要用tab开头,而不是空格,至于help下面的我都注释掉了在前面加“#”,因为还不知道怎么用


1.hadoop集群配置中client如何向hadoop传输数据http://bbs.hadoopor.com/thread-362-1-1.html:
使用DFSClient工具,客户端上传数据不需要部署hadoop,只需要安装有DFSClient工具就可以上传数据了。
bin/hadoop fs -put 就是以DFSClient的方式“远程”访问HDFS的(当然也是在本地)

2.Hadoop对mysql支持http://bbs.hadoopor.com/thread-132-1-2.html
lance(274105045) 09:48:43
好像0。20里面有提供对DB的输入,输出。
hadoopor(784027584) 09:48:50
但要使用Job并行化,就不得使用默认的调试器,Facebook提供的FaireScheduler支持对Job的并行调度。?????
Spork(47986766) 09:49:16
不是好像了,就是有,只是目前支持的较好的都是开源的,如mysql

3.SequenceFile介绍:http://bbs.hadoopor.com/thread-144-1-1.html

4.JobTracker.JobInProcesshttp://bbs.hadoopor.com/thread-212-1-1.html用于监控一个Job的调度情况。一个Job会被分解成N个Tasks,这些Tasks被分配到集群中的TaskTracer节点,由TaskTracer节点去执行这些Tasks。

==========搜索自Nabble Hadoop===============
1.Hadoop 0.17 schedules jobs fifo. If it isn't,
that is a bug. http://old.nabble.com/Hadoop-job-scheduling-issue-td19659938.html#a19659938

2.Can jobs be configured to be sequential. it means jobs in Group1 excute first, and jobs in Group2 excute later. and Group2 jobs depends on Group1 jobs. The jobs in Group1 or Group2 are independent.
http://old.nabble.com/Can-jobs-be-configured-to-be-sequential-td20043257.html#a20043257
I recommend that you look at http://cascading.org as
an abstraction layer for managing these kinds of workflows. We've
found it quite useful.

3.Sequence of Streaming Jobs: if you are using the sh or bash, the variable $? holds the exit status of the last command to execute.

hadoop jar streaming.jar ...
if [ $? -ne 0 ]; then
    echo "My job failed" 2>&1
    exit 1
fi

Caution $? is the very last command to execute's exit status. It is easy to run another command before testing and then test the wrong command's exit status
http://old.nabble.com/Sequence-of-Streaming-Jobs-td23336043.html#a23351848

4.mapred.tasktracker.map.tasks.maximum
mapred.tasktracker.reduce.tasks.maximum
mapred.map.multithreadedrunner.threads

5.http://old.nabble.com/Linking-2-MarReduce-jobs-together--td18756178.html#a18756178
Is it possible to put the output from the reduce phase of job 1
to be the input to job number 2?
Well your data has to be somewhere between the two jobs... So I'd say yes, put it in HBase or HDFS to reuse it

6.the <pro hadoop> chapter8 covers this topic.

7.http://old.nabble.com/Customizing-machines-to-use-for-different-jobs-td23864519.html#a23864519
Customizing machines to use for different jobs:
Unfortunately there is no built-in way of doing this.  You'd have to
instantiate two entirely separate Hadoop clusters to accomplish what you're
trying to do, which isn't an uncommon thing to do.

I'm not sure why you're hoping to have this behavior, but the fair share
scheduler might be helpful to you.  It let's you essentially divvy up your
cluster into queues, where each queue has its own "chunk" of the cluster.
When resources are available outside of the "chunk," then jobs can span into
other queues' space.

Cloudera's Distribution for Hadoop (<http://www.cloudera.com/hadoop>)
includes the fair share scheduler.  I recommend using our distribution,
otherwise here is the fair share JIRA:

<http://issues.apache.org/jira/browse/HADOOP-3746>

8.http://old.nabble.com/How-to-run-many-jobs-at-the-same-time--td23151917.html#a23151917
How to run many jobs at the same time?:JobControl example

9.http://issues.apache.org/jira/browse/HADOOP-5170
Set max map/reduce tasks on a per-job basis, either per-node or cluster-wide

once the tasktracker starts, the maximum number of tasks
per node can not be changed. In my case, I've solved this challenge by stopping and starting mapred (stop-mapred.sh, start-mapred.sh) between jobs.
There is a jira so this may be changed in the future:  jira HADOOP-5170 (
http://issues.apache.org/jira/browse/HADOOP-5170)
可能已经修正了

10.Oozie, Hadoop Workflow System
https://issues.apache.org/jira/browse/HADOOP-5303

11.http://kdpeterson.net/blog/2009/11/hadoop-workflow-tools-survey.html
Hadoop Workflow Tools Survey
very clear about jobs schedule
一个视频http://developer.yahoo.net/blogs/theater/archives/2009/08/hadoop_summit_workflow_oozie.html

12.http://wiki.dspace.org/index.php/Creating_and_Applying_Patches_in_Eclipse
Creating and Applying Patches in Eclipse
http://www.ibm.com/developerworks/cn/opensource/os-eclipse-galileopatch/

13.JobControl:http://hadoop.apache.org/common/docs/r0.20.1/api/org/apache/hadoop/mapred/jobcontrol/JobControl.html

14. http://kdpeterson.net/blog/2009/11/hadoop-workflow-tools-survey.html
By default, Hadoop uses a FIFO scheduler, but there are two more advanced schedulers which are widely used. The Capacity Scheduler is focused on guaranteing that various users of a cluster will have access to their guaranteed number of slots while making it and the Fair Scheduler is focused on providing good latency for small jobs while long running large jobs share the same cluster. These schedulers closely parallel processor scheduling, with hadoop jobs corresponding to processes and the map and reduce tasks corresponding to time slices
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    Hadoop期末操作备忘录

    【Hadoop期末操作备忘录】是一份针对学习和使用Hadoop技术的学生或专业人士的重要参考资料。这份备忘录旨在帮助用户在期末复习阶段系统地回顾和掌握Hadoop的核心概念、关键组件以及实际操作技巧,从而在考试或项目中...

    mac环境下hadoop集群搭建

    在文档的最后,强调了版权和使用说明,明确指出本文档仅用于个人学习和备忘,禁止有营利性行为的单位和个人使用,以防误用导致不必要的侵权问题。同时,文档还提供了联系方式,以便在文档出现错误或者不足时,读者...

    快速配置Hadoop开发环境 Win7+Eclipse&amp;CentOS7+Hadoop2 5 1

    本文来自近一周从零开始摸索的操作的笔记 在此过程中得感谢XXTV 感谢互联网 整理出来一是自己备忘 二是希望能初学Hadoop的人一些参考 并节约宝贵时间 本文分两部分 第一部分为Hadoop2 5 1集群的架设 基于CentOS 7...

    Altibase 内存数据库、JDBC、Dervice

    1999年,Altibase成立并与ETRI签订合作备忘录。从那时起,Altibase成为内存数据库的先行者: Altibase目前拥有最为丰富的实施经验,在全球拥有超过500个全球性企业客户和数以千计的关键任务部署。 从最开始Altibase...

    华为OD系列--华为od,备忘录.zip

    这涵盖了Hadoop、Spark等大数据处理框架,以及华为自研的数据仓库和数据湖服务。 3. **人工智能集成**:AI是华为OD平台的重要组成部分,提供了模型开发、训练、部署的一站式服务。这包括机器学习、深度学习、自然...

    Apache_Hive:Apache Hive(Hadoop上SQL)语法,备忘单和项目

    Hive语法和项目命令: 显示数据库; 显示表格; 描述格式化的test_table; 描述格式化的test_table分区(my_column ='my_value'); 创建表test_table(名称VARCHAR(64),年龄INT,等级DECIMAL(3,2));...

    按知识领域整理面试题,包括C++、Java、Hadoop、机器学习等.zip

    - 行为型模式(如策略、模板方法、观察者、迭代器、责任链、命令、备忘录、解释器) 8. **数据结构与算法** - 树结构(二叉树、AVL树、红黑树) - 图算法(Dijkstra、Floyd、拓扑排序) - 排序算法(冒泡、选择...

    eclipse-plugin

    在这个场景中,我们关注的是与Hadoop相关的插件资源,特别是针对Hadoop 2.2版本。 Hadoop是一个开源的大数据处理框架,由Apache软件基金会维护。它主要由两个核心组件构成:Hadoop Distributed File System (HDFS) ...

    HCDE438-Cheatsheets:HCDE 438 2020年夏季备忘单

    - Hadoop生态系统:包括HDFS、MapReduce、HBase、Hive等组件及其作用。 - Spark框架:了解Spark Core、Spark SQL、Spark Streaming和MLlib等模块,以及如何使用Spark进行大数据处理和机器学习。 - 数据流处理:...

    Cloudera Product Comparison

    描述中提到的“社区版和企业版区别”以及“备忘一下”说明了本文档的核心内容将聚焦于Cloudera两种版本之间的主要差异,并且可能是作为学习或决策参考的目的。 标签“社区版 企业版”进一步确认了文档的焦点是这两...

    设计模式代码

    创建型模式(如单例、工厂方法、抽象工厂、建造者和原型),结构型模式(如适配器、桥接、组合、装饰、外观、享元和代理),以及行为型模式(如责任链、命令、解释器、迭代器、访问者、备忘录、观察者、状态、策略、...

    cheat-sheet:备忘单的集合

    notes:我的笔记-PWA笔记本

    Hadoop 数据科学 统计数据 机器学习 代码 前处理 分类 聚类 机器学习资源 图分析 并行预处理 深度学习 神经网络 自然语言处理 图像处理 计算机视觉 AI-强化学习 工具 朱皮特 大熊猫 脾气暴躁的 张量流 火炬 可视化 ...

    基本排序算法及其在MapReduce的应用

    该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上其他渠道也能得到,仅用于记录备忘之用。冒泡、选择、插入三种作为基本的排序算法是必须要掌握的,而在MapReduce的实际应用中。在Map阶段,k-v溢写时...

    ToGetReady:准备录取通知并记录所有实习,面试,leetcode

    准备好 准备录取通知并记录所有实习,面试和leetcode。 个人向2022秋招准备,实习,面试,刷题,一股脑全记录,每日复盘,加油冲冲冲...总结大数据工程项目,除基本的Hadoop + Spark部署部署外,重点关注实时流计算Flin

    云计算及网站技术运营.ppt

    例如,Amazon的弹性云平台提供了稳定且灵活的Web服务部署选项,而Hadoop这样的开源项目则用于大规模日志分析和数据处理。分布式文件系统如MooseFS则帮助构建大规模、高性能和高可靠的虚拟存储。平台虚拟化技术,如...

    java设计模式+算法

    在大数据领域,"MapReduceOverview.pdf"可能介绍了Apache Hadoop的MapReduce编程模型,这是一种分布式计算框架,常用于处理大规模数据集。Map阶段将任务分解,Reduce阶段负责整合结果,这种模式在处理海量数据时表现...

    【白雪红叶】JAVA学习技术栈梳理思维导图.xmind

    hadoop hbase mongodb strom spark java语言 语言语法基础 异常 泛型 内部类 反射 序列化 nIo 匿名类 包装类 优先级 引用 语言工具类库 容器类 集合 链表 map 工具类 系统类 日期类 数字...

    JAVA技术体系

    - **行为模式**:如责任链、命令、解释器、迭代、中介者、备忘录、观察者、状态、策略、模板、访问者。 - **分布式技术**:包括 Hadoop 生态系统(HDFS、MapReduce)、云计算技术等。 #### 总结 通过以上知识点的...

    the-apache-ignite-book:The Apache Ignite Book的所有代码示例,脚本和更深入的示例。 包括Apache Ignite 2.6或更高版本

    例如,备忘录部分的清单放置在章/ chapter-5 / memoization文件夹中。 这本书是关于什么的? Apache Ignite是使用最广泛的以开源内存为中心的分布式,缓存和处理平台之一。 这使用户可以将该平台用作内存计算框架...

Global site tag (gtag.js) - Google Analytics