本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
3.The Hadoop Distributed File System
3. The Hadoop Distributed File System
3.1. The Design of HDFS
HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。
HDFS不足:
低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文件的多个wirter进行写入或者任意位 ...
GWT+hadoop+Hbase搭建环境
望能够给同学们提供些便捷,节省些时间。文章中有转载其他达人的内容,但是本着与时俱进的原则,对里面的诸多内容进行了修改。
搭建Hadoop/Hbase环境:
1.在Apache/Hadoop项目的网站(hadoop.apache.org/)下载hadoop以及hbase的发行包,此处两个发行包的大版本号一定要一致,我使用的版本是0.20.1:
hadoop-0.20.1.tar.gz hb ...
提升hbase性能的几个地方
1、使用bloomfilter和mapfile_index_interval
Bloomfilter(开启/未开启=1/0)
mapfile_index_interval
Exists(0-10000)/ms
Get(10001 - 20000)/ms
0
128
22460
Nutch 研究<三> 将Nutch爬取结果放入Hypertable
想把Nutch抓取的web page结果放入到Hypertable中去,目前思路主要有三个:
1. 修改Nutch源代码,让Nutch基于Hypertable工作,可以参考Hbase的实现. 由于该实现缺失Nutch好多特性,而且不易升级,考虑作罢.
2. 将Nutch抓取结果以命令导出为text的dump文件,然后用MapReduce解析该文件,哪相关信息到Hypertable.
3. 其实 ...
用户推荐Slope One算法与mapreduce&hive实现
下载本文代码
用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。
本文要描述的Slope One
算法是一种对评分进行预测的 ...
对云计算中几种基础设施(Dynamo,Bigtable,Map/Reduce等)的朴素看法
作者:康华
文章地址:http://blog.csdn.net/kanghua/archive/2008/09/12/2919766.aspx
前言
云计算的概念近期可谓如火如荼,备受关注。我先前听到“云”这个名词 ...
[zz]hadoop hbase
HBase suffers terribly from the inability of applications to flush file data to storage before the file is closed, and a crash of any portion of the HBase servers or a service interrupting crash of HDF ...
HBASE松散数据存储设计初识
引<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
最近关注Hadoop,因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目,也是对Google的BigTable的一种实现。
BigTable是什么?Google的Pape ...
Hadoop Hbase适合存储哪类数据?
Hadoop Hbase适合存储哪类数据?
最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。 ...
最近博客热门TAG
Oracle(49876) MySQL(37268) SQL Server(17623) Access(9329) DB2(4271) Redis(3181) Sybase(2414) 数据挖掘(2098) MongoDB(2014) SQLite(1817) PostgreSQL(1635) HBase(1492) NoSQL(1000) HSQLDB(620) Informix(581) Derby(578) Cassandra(375) PowerBuilder(333) CouchDB(113) TokyoCabinet(87)