本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
用于云计算的分布式数据库(云数据库)
IBM投资EnerpriseDB;EnerpriseDB有一个运行在Amazon EC2上的云版本
Amazon自己的云数据库SimpleDB
Google的BigTable不开源,但得到了广泛研究
两个开源项目——HBase(java)和Hypertable(C++)利用开源Map/Reduce平台Hadoop提供了类似于BigTable的可伸缩数据库实现。
Hadoop分布式文件系统:架构和设计要点(翻译)
Hadoop分布式文件系统:架构和设计要点一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标 ...
nutch源代码分析之Injector
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db ...
hadoop的reducer输出多个文件
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。
比如:
package org.apache.hadoop.mapred.lib;
import j ...
hama -- a parallel matrix computational package
Today, I accidently found an interesting stuff, which may help us operating large scales of data sets for redpoll. This is a matrix computational library based on hadoop hbase.
http://code.google.com/ ...
redpoll and mahout
Days before, I've submitted an application to participate in Apache Mahout and at this time, have got a reply from the guru of this project. It inspired us with lots of courages. We decided that if I ...