- 浏览: 222763 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
synack:
写的很好,图文并茂,语言简单清晰,赞!
SkipList 跳表 -
king_c:
jiandandecaicai 写道你好,请教一下是如何通过E ...
从Hadoop URL 中读取数据 -
jiandandecaicai:
你好,请教一下是如何通过Eclipse来连接Hadop机群的, ...
从Hadoop URL 中读取数据
刚开始接触Hadoop的API时,首先第一个就是接触Configuration这个类,但是不知道为什么很多的其它方法都需要这个Configuration对象作为参数传入,今天好好的看了这个方法。其中最重要的莫过于它将用户对Hadoop所做的配置全部记录下来了。下面是我通过调用Configuration类中的Main方法而产生出来的xml数据。
<?xml version="1.0" encoding="UTF-8" standalone="no"?> <configuration> <property><name>fs.s3n.impl</name><value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value></property> <property><name>mapred.task.cache.levels</name><value>2</value></property> <property><name>hadoop.tmp.dir</name><value>/tmp/hadoop-${user.name}</value></property> <property><name>hadoop.native.lib</name><value>true</value></property> <property><name>map.sort.class</name><value>org.apache.hadoop.util.QuickSort</value></property> <property><name>ipc.client.idlethreshold</name><value>4000</value></property> <property><name>mapred.system.dir</name><value>${hadoop.tmp.dir}/mapred/system</value></property> <property><name>mapred.job.tracker.persist.jobstatus.hours</name><value>0</value></property> <property><name>io.skip.checksum.errors</name><value>false</value></property> <property><name>fs.default.name</name><value>hdfs://localhost:8020/</value></property> <property><name>mapred.cluster.reduce.memory.mb</name><value>-1</value></property> <property><name>mapred.child.tmp</name><value>./tmp</value></property> <property><name>fs.har.impl.disable.cache</name><value>true</value></property> <property><name>mapred.skip.reduce.max.skip.groups</name><value>0</value></property> <property><name>mapred.heartbeats.in.second</name><value>100</value></property> <property><name>mapred.tasktracker.dns.nameserver</name><value>default</value></property> <property><name>io.sort.factor</name><value>10</value></property> <property><name>mapred.task.timeout</name><value>600000</value></property> <property><name>mapred.max.tracker.failures</name><value>4</value></property> <property><name>hadoop.rpc.socket.factory.class.default</name><value>org.apache.hadoop.net.StandardSocketFactory</value></property> <property><name>mapred.job.tracker.jobhistory.lru.cache.size</name><value>5</value></property> <property><name>fs.hdfs.impl</name><value>org.apache.hadoop.hdfs.DistributedFileSystem</value></property> <property><name>eclipse.plug-in.jobtracker.port</name><value>8021</value></property> <property><name>mapred.skip.map.auto.incr.proc.count</name><value>true</value></property> <property><name>mapreduce.job.complete.cancel.delegation.tokens</name><value>true</value></property> <property><name>io.mapfile.bloom.size</name><value>1048576</value></property> <property><name>mapreduce.reduce.shuffle.connect.timeout</name><value>180000</value></property> <property><name>mapred.jobtracker.blacklist.fault-timeout-window</name><value>180</value></property> <property><name>tasktracker.http.threads</name><value>40</value></property> <property><name>mapred.job.shuffle.merge.percent</name><value>0.66</value></property> <property><name>fs.ftp.impl</name><value>org.apache.hadoop.fs.ftp.FTPFileSystem</value></property> <property><name>mapred.output.compress</name><value>false</value></property> <property><name>io.bytes.per.checksum</name><value>512</value></property> <property><name>mapred.healthChecker.script.timeout</name><value>600000</value></property> <property><name>topology.node.switch.mapping.impl</name><value>org.apache.hadoop.net.ScriptBasedMapping</value></property> <property><name>mapred.reduce.slowstart.completed.maps</name><value>0.05</value></property> <property><name>mapred.reduce.max.attempts</name><value>4</value></property> <property><name>fs.ramfs.impl</name><value>org.apache.hadoop.fs.InMemoryFileSystem</value></property> <property><name>mapred.skip.map.max.skip.records</name><value>0</value></property> <property><name>mapred.cluster.map.memory.mb</name><value>-1</value></property> <property><name>hadoop.security.group.mapping</name><value>org.apache.hadoop.security.ShellBasedUnixGroupsMapping</value></property> <property><name>mapred.job.tracker.persist.jobstatus.dir</name><value>/jobtracker/jobsInfo</value></property> <property><name>mapred.jar</name><value>/home/hadoop/hadoop/.metadata/.plugins/org.apache.hadoop.eclipse/firstApp_CatURL.java-7377097405794968176.jar</value></property> <property><name>fs.s3.buffer.dir</name><value>${hadoop.tmp.dir}/s3</value></property> <property><name>job.end.retry.attempts</name><value>0</value></property> <property><name>fs.file.impl</name><value>org.apache.hadoop.fs.LocalFileSystem</value></property> <property><name>mapred.local.dir.minspacestart</name><value>0</value></property> <property><name>mapred.output.compression.type</name><value>RECORD</value></property> <property><name>topology.script.number.args</name><value>100</value></property> <property><name>io.mapfile.bloom.error.rate</name><value>0.005</value></property> <property><name>mapred.cluster.max.reduce.memory.mb</name><value>-1</value></property> <property><name>mapred.max.tracker.blacklists</name><value>4</value></property> <property><name>mapred.task.profile.maps</name><value>0-2</value></property> <property><name>mapred.userlog.retain.hours</name><value>24</value></property> <property><name>mapred.job.tracker.persist.jobstatus.active</name><value>false</value></property> <property><name>hadoop.security.authorization</name><value>false</value></property> <property><name>local.cache.size</name><value>10737418240</value></property> <property><name>eclipse.plug-in.jobtracker.host</name><value>localhost</value></property> <property><name>mapred.min.split.size</name><value>0</value></property> <property><name>mapred.map.tasks</name><value>2</value></property> <property><name>mapred.child.java.opts</name><value>-Xmx200m</value></property> <property><name>mapreduce.job.counters.limit</name><value>120</value></property> <property><name>eclipse.plug-in.user.name</name><value>hadoop</value></property> <property><name>mapred.job.queue.name</name><value>default</value></property> <property><name>mapred.job.tracker.retiredjobs.cache.size</name><value>1000</value></property> <property><name>ipc.server.listen.queue.size</name><value>128</value></property> <property><name>mapred.inmem.merge.threshold</name><value>1000</value></property> <property><name>job.end.retry.interval</name><value>30000</value></property> <property><name>mapred.skip.attempts.to.start.skipping</name><value>2</value></property> <property><name>fs.checkpoint.dir</name><value>${hadoop.tmp.dir}/dfs/namesecondary</value></property> <property><name>mapred.reduce.tasks</name><value>1</value></property> <property><name>mapred.merge.recordsBeforeProgress</name><value>10000</value></property> <property><name>mapred.userlog.limit.kb</name><value>0</value></property> <property><name>mapred.job.reduce.memory.mb</name><value>-1</value></property> <property><name>webinterface.private.actions</name><value>false</value></property> <property><name>io.sort.spill.percent</name><value>0.80</value></property> <property><name>mapred.job.shuffle.input.buffer.percent</name><value>0.70</value></property> <property><name>eclipse.plug-in.socks.proxy.port</name><value>1080</value></property> <property><name>mapred.map.tasks.speculative.execution</name><value>true</value></property> <property><name>hadoop.util.hash.type</name><value>murmur</value></property> <property><name>mapred.map.max.attempts</name><value>4</value></property> <property><name>mapreduce.job.acl-view-job</name><value> </value></property> <property><name>mapred.job.tracker.handler.count</name><value>10</value></property> <property><name>mapreduce.reduce.shuffle.read.timeout</name><value>180000</value></property> <property><name>mapred.tasktracker.expiry.interval</name><value>600000</value></property> <property><name>mapred.jobtracker.maxtasks.per.job</name><value>-1</value></property> <property><name>mapred.jobtracker.job.history.block.size</name><value>3145728</value></property> <property><name>keep.failed.task.files</name><value>false</value></property> <property><name>ipc.client.tcpnodelay</name><value>false</value></property> <property><name>mapred.task.profile.reduces</name><value>0-2</value></property> <property><name>mapred.output.compression.codec</name><value>org.apache.hadoop.io.compress.DefaultCodec</value></property> <property><name>io.map.index.skip</name><value>0</value></property> <property><name>ipc.server.tcpnodelay</name><value>false</value></property> <property><name>mapred.jobtracker.blacklist.fault-bucket-width</name><value>15</value></property> <property><name>mapred.used.genericoptionsparser</name><value>true</value></property> <property><name>mapred.job.map.memory.mb</name><value>-1</value></property> <property><name>hadoop.logfile.size</name><value>10000000</value></property> <property><name>mapred.reduce.tasks.speculative.execution</name><value>true</value></property> <property><name>mapreduce.tasktracker.outofband.heartbeat</name><value>false</value></property> <property><name>mapreduce.reduce.input.limit</name><value>-1</value></property> <property><name>hadoop.security.authentication</name><value>simple</value></property> <property><name>eclipse.plug-in.socks.proxy.host</name><value>host</value></property> <property><name>fs.checkpoint.period</name><value>3600</value></property> <property><name>mapred.job.reuse.jvm.num.tasks</name><value>1</value></property> <property><name>mapred.jobtracker.completeuserjobs.maximum</name><value>100</value></property> <property><name>mapred.task.tracker.task-controller</name><value>org.apache.hadoop.mapred.DefaultTaskController</value></property> <property><name>fs.s3.maxRetries</name><value>4</value></property> <property><name>mapred.cluster.max.map.memory.mb</name><value>-1</value></property> <property><name>mapreduce.job.acl-modify-job</name><value> </value></property> <property><name>mapred.local.dir</name><value>${hadoop.tmp.dir}/mapred/local</value></property> <property><name>fs.hftp.impl</name><value>org.apache.hadoop.hdfs.HftpFileSystem</value></property> <property><name>fs.trash.interval</name><value>0</value></property> <property><name>fs.s3.sleepTimeSeconds</name><value>10</value></property> <property><name>mapred.submit.replication</name><value>10</value></property> <property><name>fs.har.impl</name><value>org.apache.hadoop.fs.HarFileSystem</value></property> <property><name>mapred.map.output.compression.codec</name><value>org.apache.hadoop.io.compress.DefaultCodec</value></property> <property><name>mapred.tasktracker.dns.interface</name><value>default</value></property> <property><name>eclipse.plug-in.namenode.port</name><value>8020</value></property> <property><name>mapred.job.tracker</name><value>localhost:8021</value></property> <property><name>io.seqfile.sorter.recordlimit</name><value>1000000</value></property> <property><name>mapred.line.input.format.linespermap</name><value>1</value></property> <property><name>mapred.jobtracker.taskScheduler</name><value>org.apache.hadoop.mapred.JobQueueTaskScheduler</value></property> <property><name>eclipse.plug-in.masters.colocate</name><value>yes</value></property> <property><name>mapred.local.dir.minspacekill</name><value>0</value></property> <property><name>io.sort.record.percent</name><value>0.05</value></property> <property><name>fs.kfs.impl</name><value>org.apache.hadoop.fs.kfs.KosmosFileSystem</value></property> <property><name>mapred.temp.dir</name><value>${hadoop.tmp.dir}/mapred/temp</value></property> <property><name>mapred.tasktracker.reduce.tasks.maximum</name><value>2</value></property> <property><name>eclipse.plug-in.socks.proxy.enable</name><value>no</value></property> <property><name>fs.checkpoint.edits.dir</name><value>${fs.checkpoint.dir}</value></property> <property><name>mapred.tasktracker.tasks.sleeptime-before-sigkill</name><value>5000</value></property> <property><name>eclipse.plug-in.location.name</name><value>localhost</value></property> <property><name>mapred.job.reduce.input.buffer.percent</name><value>0.0</value></property> <property><name>mapred.tasktracker.indexcache.mb</name><value>10</value></property> <property><name>mapreduce.job.split.metainfo.maxsize</name><value>10000000</value></property> <property><name>mapred.skip.reduce.auto.incr.proc.count</name><value>true</value></property> <property><name>hadoop.logfile.count</name><value>10</value></property> <property><name>io.seqfile.compress.blocksize</name><value>1000000</value></property> <property><name>fs.s3.block.size</name><value>67108864</value></property> <property><name>mapred.tasktracker.taskmemorymanager.monitoring-interval</name><value>5000</value></property> <property><name>mapreduce.jobtracker.staging.root.dir</name><value>${hadoop.tmp.dir}/mapred/staging</value></property> <property><name>mapred.acls.enabled</name><value>false</value></property> <property><name>mapred.queue.default.state</name><value>RUNNING</value></property> <property><name>mapred.queue.names</name><value>default</value></property> <property><name>fs.hsftp.impl</name><value>org.apache.hadoop.hdfs.HsftpFileSystem</value></property> <property><name>mapred.task.tracker.http.address</name><value>0.0.0.0:50060</value></property> <property><name>mapred.reduce.parallel.copies</name><value>5</value></property> <property><name>io.seqfile.lazydecompress</name><value>true</value></property> <property><name>eclipse.plug-in.namenode.host</name><value>localhost</value></property> <property><name>io.sort.mb</name><value>100</value></property> <property><name>ipc.client.connection.maxidletime</name><value>10000</value></property> <property><name>mapred.task.tracker.report.address</name><value>127.0.0.1:0</value></property> <property><name>mapred.compress.map.output</name><value>false</value></property> <property><name>hadoop.security.uid.cache.secs</name><value>14400</value></property> <property><name>mapred.healthChecker.interval</name><value>60000</value></property> <property><name>ipc.client.kill.max</name><value>10</value></property> <property><name>ipc.client.connect.max.retries</name><value>10</value></property> <property><name>fs.s3.impl</name><value>org.apache.hadoop.fs.s3.S3FileSystem</value></property> <property><name>mapred.user.jobconf.limit</name><value>5242880</value></property> <property><name>hadoop.socks.server</name><value>host:1080</value></property> <property><name>mapred.job.tracker.http.address</name><value>0.0.0.0:50030</value></property> <property><name>io.file.buffer.size</name><value>4096</value></property> <property><name>mapred.jobtracker.restart.recover</name><value>false</value></property> <property><name>io.serializations</name><value>org.apache.hadoop.io.serializer.WritableSerialization</value></property> <property><name>mapred.task.profile</name><value>false</value></property> <property><name>mapred.reduce.copy.backoff</name><value>300</value></property> <property><name>jobclient.output.filter</name><value>FAILED</value></property> <property><name>mapred.tasktracker.map.tasks.maximum</name><value>2</value></property> <property><name>io.compression.codecs</name><value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value></property> <property><name>fs.checkpoint.size</name><value>67108864</value></property> </configuration>
根节点是configuration,也就代表了Configuration类了,至于里面的属性都是我们对Hadoop的配置参数,很多都是Hadoop默认的配置。所以其他的类如果想要对你配置的Hadoop做操作,当然离不开这些参数了。而如果你想往Hadoop中配置其他资源时,还可以通过Configuration中的set方法进行操作,而如果你想取里面的某些参数,同理也可以调用Configuration中的get方法。
发表评论
-
关于Hadoop的InputFormat类
2012-01-01 14:35 1591org.apache.hadoop.mapreduce. ... -
Hadoop之更快的排序
2012-01-01 14:18 1341键默认的排序处理是 ... -
Hbase分析报告
2012-01-01 13:55 1926Hbase分析报告 本 ... -
MapReduce的输入输出格式
2012-01-01 13:53 5020默认的mapper是IdentityMapper,默认的 ... -
MapReduce 动态设置 namenode HDFS 的URI
2011-12-28 16:25 2332开发MapReduce程序 一直都是在namenode 那 ... -
分布式数据库 HBase
2011-12-21 16:28 775觉的这篇文章介绍的比较详细,copy一下。作为记录。 ... -
Hadoop 集群 傻瓜式搭建手记
2011-12-21 16:21 1094关于Hadoop的配置,按照我的理解,应该有六个文件需要修改, ... -
hbase java编程实例
2011-12-23 09:34 1380HBase提供了java api来对HBase进行一系列 ... -
通过FileSystem API 读取hadoop文件系统数据
2011-12-14 11:11 1956有时无法应用 URL.setURLStreamHandler ... -
从Hadoop URL 中读取数据
2011-12-14 09:40 2659要从Hadoop文件系统中读取文件,最简单的方法就是使用jav ...
相关推荐
hadoop_configuration_using_ansible *在playbooks文件夹中,我保留了playbook,xml文件,jinja模板,vars文件。 您可以使用vars文件提供主IP,各个节点的目录。 手册将使用ansible配置hdfs集群。 它提供了一个完整...
在Windows环境下运行Hadoop可能对初学者来说是一个挑战,但通过一些特定的配置和步骤,可以成功地在Eclipse开发环境中搭建Hadoop环境。本文将详细介绍如何在Windows上配置和运行Hadoop,以及如何使用Eclipse进行开发...
$HADOOP_CLIENT_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,$HADOOP...
使用插件后,你可以创建MapReduce项目,编写Mapper和Reducer类,并通过Eclipse的Run Configuration设置作业参数。插件会自动生成Hadoop配置文件,如`job.xml`,并提供运行和调试作业的功能。 总之,Hadoop Eclipse...
`URI`代表HDFS的地址,而`Configuration`对象用于设置Hadoop配置参数。 2. **读取文件**:使用`FileSystem`实例的`open(Path path)`方法打开文件,返回一个`FSDataInputStream`,然后可以读取数据。 3. **写入文件...
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class HDFSExample { public static void main(String[] args) throws ...
5. **配置管理**:通过Properties和Configuration类来管理和加载Hadoop集群的配置信息。 6. **日志和监控**:支持日志聚合和节点健康检查,便于运维人员监控集群状态。 7. **资源管理**:包含如内存管理、磁盘空间...
根据给定文件的信息,本文将详细介绍如何在 CentOS 6.4 系统中安装 Hadoop 2.6.0,并实现单机模式与伪分布式模式的配置。 ### 环境准备 #### 操作系统环境 - **操作系统**: CentOS 6.4 32位 - **虚拟化平台**: ...
在本文中,我们将深入探讨如何在CentOS操作系统上部署Hadoop HDFS和HBase。首先,我们来看一下Hadoop的部署过程。 ### 一、部署Hadoop #### 1. 安装Hadoop 3.1.3 安装Hadoop需要先确保你的系统满足其依赖项,比如...
Hadoop Configuration 302 Configuration Management 303 Environment Settings 305 Important Hadoop Daemon Properties 309 Hadoop Daemon Addresses and Ports 314 Other Hadoop Properties 315 User Account ...
配置向导MySQL Configuration Wizard会根据用户的输入生成my.ini配置文件,确保MySQL服务器能正确运行。这包括设置服务器类型(如开发、生产环境)、网络连接(如TCP/IP、套接字)、账户安全(如root用户密码)以及...
在IT行业中,大数据处理是一个至关重要的领域,而Hadoop和HBase是其中的两大关键组件。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据,而HBase是基于Hadoop的分布式NoSQL数据库,适用于实时读写操作。...
### Ubuntu 10.04 上 JDK 1.6、Hadoop 和 HBase 安装指南 #### 一、环境准备与系统配置 在开始安装 JDK、Hadoop 和 HBase 之前,首先需要确保 Ubuntu 10.04 操作系统已经正确安装,并且能够正常运行。 #### 二、...
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import...
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式...
Hadoop是一款开源的大数据处理框架,由Apache基金会开发,它主要设计用于分布式存储和处理海量数据。在Windows环境中,由于其默认支持Linux操作系统,因此需要一些额外的工具来使其正常运行,比如`winutils.exe`和`...
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; ...
Ubuntu Hadoop分布式部署 Hadoop 是一个开源的分布式计算平台,由Apache基金会维护。它提供了一个框架来处理大量数据,并且可以在廉价的计算机集群上运行。本文将介绍如何在Ubuntu系统上部署Hadoop分布式系统。 ...