本月博客排行
-
第1名
wy_19921005 -
第2名
mft8899 -
第3名
java-007 - Anmin
- benladeng5225
年度博客排行
-
第1名
龙儿筝 -
第2名
宏天软件 -
第3名
benladeng5225 - wy_19921005
- vipbooks
- kaizi1992
- 青否云后端云
- e_e
- tanling8334
- sam123456gz
- arpenker
- zysnba
- fantaxy025025
- xiangjie88
- wallimn
- lemonhandsome
- jh108020
- ganxueyun
- Xeden
- xyuma
- zhanjia
- wangchen.ily
- johnsmith9th
- zxq_2017
- forestqqqq
- jbosscn
- daizj
- ajinn
- xpenxpen
- 喧嚣求静
- kingwell.leng
- lchb139128
- kristy_yy
- jveqi
- javashop
- lzyfn123
- sunj
- yeluowuhen
- lerf
- silverend
- chenqisdfx
- xiaoxinye
- flashsing123
- bosschen
- lyndon.lin
- zhangjijun
- sunnylocus
- lyj86
- paulwong
- sgqt
最新文章列表
用于云计算的分布式数据库(云数据库)
IBM投资EnerpriseDB;EnerpriseDB有一个运行在Amazon EC2上的云版本
Amazon自己的云数据库SimpleDB
Google的BigTable不开源,但得到了广泛研究
两个开源项目——HBase(java)和Hypertable(C++)利用开源Map/Reduce平台Hadoop提供了类似于BigTable的可伸缩数据库实现。
Hadoop分布式文件系统:架构和设计要点(翻译)
Hadoop分布式文件系统:架构和设计要点一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标 ...
nutch源代码分析之Injector
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db ...
hadoop的reducer输出多个文件
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。
比如:
package org.apache.hadoop.mapred.lib;
import j ...
hama -- a parallel matrix computational package
Today, I accidently found an interesting stuff, which may help us operating large scales of data sets for redpoll. This is a matrix computational library based on hadoop hbase.
http://code.google.com/ ...
redpoll and mahout
Days before, I've submitted an application to participate in Apache Mahout and at this time, have got a reply from the guru of this project. It inspired us with lots of courages. We decided that if I ...