文章列表
Hadoop有一个被称为HDFS的分布式系统,全称为Hadoop Distributed FileSystem。HDFS是为以流式数据访问模式(一次写入,多次读取)存储超大文件(指几百MB,几百GB甚至几百TB大小的文件)而设计的文件系统,在商用硬件(在各种零售店都可以买到的普通硬件)的集群上运行。HDFS不适用的领域: ①低延迟数据访问(HDFS是为达到高数据吞吐量而优化的,这有可能会以延迟为代价) ②大量的小文件(名称节点存储着文件系统的元数据,因此文件数量的限制也有名称节点的内存量决定) ...
实现功能:随机生成10000个数字置于文件VInput中,利用mapreduce找出其中的最大值。我们需要三样东西:一个map函数,一个reduce函数,一些来运行作业的代码。求最大值实例的Mapper接口:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.OutputCollector;import org.ap ...