最新文章列表

Hadoop源代码分析(二)

下面给出了Hadoop的包的功能分析。   Package Dependences tool 提供一些命令行工具,如DistCp,archive
caibinbupt 评论(1) 有25622人浏览 2008-11-19 14:51

bigtable ,hbase 学习

1.阅读 http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture    hbase architect.  先阅读 bigtable .http://labs.google.com/papers/bigtable.html   Want asynchronous processes to be continuously updating    d ...
stephen80 评论(0) 有2553人浏览 2008-11-10 10:47

hadoop 深入

1.下载ibm ,m/R 工具   http://www.alphaworks.ibm.com/tech/mapreducetools 2. 在eclipse 中编译hadoop, 无论如何,不能直接run example    放弃。 3. 用 下载的plug-in ,建立一个m/R 项目    拷贝:hadoop 的项目过来。    run ,ok. 4. 配置 hadoop-site ...
stephen80 评论(0) 有1312人浏览 2008-11-05 18:25

Hadoop源代码分析(一)

经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs ...
caibinbupt 评论(19) 有48563人浏览 2008-11-04 21:22

nutch 学习:Fetcher2,Hbase

1.配置nutch 在eclipse 中可以单步跟踪 2.       修改 nutch, 从 Fetcher1 到 Fetcher2 ,  每个host 一个队列的抓取方式 (同 levin) 3.       参看 nutch 把存储改为 Hbase 的文档      http://www.nabble.com/-jira--Created:-(NUTCH-650)-Hbase-Integ ...
stephen80 评论(0) 有1876人浏览 2008-11-04 10:26

大型应用开发的各种可伸缩性解决方案相似之处

在数据层我们看到如下特征: 增加一个缓存层以利用可用内存资源并减少I/O开销 从中央数据库方式转向分区方式,也称为shards(注:shards 是google贡献给hibernate的一个项目,目标是通过hibernate在多重数据库上提供一个统一的视图。) 在业务逻辑层: 给应用层增加并行语义(如MapReduce、for...join) 转向向外扩展(scale-out)应用模 ...
killer2008 评论(0) 有892人浏览 2008-10-31 19:57

怎么在hadoop作map/reduce时输出N种不同类型的value

BTW:再次感叹下没有机器, 3.4G的语料,单机处理了10来个小时, 真是郁闷~~ 要是有N台机器多好啊.   在很多时候,特别是处理大数据的时候,我们希望一道MapReduce过程就可以解决几个问题。这样可以避免再次读取数据。比如:在做文本聚类/分类的时候,mapper读取语料,进行分词后,要同时算出每个词条(term)的term frequency以及它的document frequency. ...
coderplay 评论(6) 有11324人浏览 2008-10-30 04:46

mapreduce 学习过程

1. 大致阅读 mapred_tutorial.pdf 2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行     bin/hadoop jar mylib/tuthadoop.jar  com.***.tut.WordCount input1 output1 3. 缺省的 input ,会读 input1 底下的每个文件的每一行    缺省的output ,会把每一行写入o ...
stephen80 评论(0) 有964人浏览 2008-10-29 18:06

三年程序员的我该怎么办

        转眼间工作三年了,三年中一直在老老实实的埋头写自己的程序,也从来没有在什么论坛上发过帖子。然而今天在回家的路上我却对未来充满了迷茫,我该怎么走。          我做java开发到设计到带项目三年,没有做过什么惊天动地的大项目,也没有掌握什么舍我其谁的技术,我的简历上来来回回也只有和java相关的几个项目。在招聘网站上搜索职位每每搜索到软件工程师、高级软件工程师的时候总有一种窃喜的 ...
zhaoqiangster 评论(21) 有1244人浏览 2008-10-27 23:43

使用Hadoop搭建分布式存储和分布式运算集群

1. 列出使用的机器 普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。 机器名:finewine01finewine02finewine03 将finewine01设为主节点,其它的机 ...
ithero 评论(0) 有2776人浏览 2008-10-27 14:24

hadoop 分布式文件系统安装

hadoop应用之安装篇 hadoop 分布式文件系统安装——For FreeBSD7 (初稿20080228_Rhinux) 感谢:首先感谢我的女朋友在我加班测试系统的时候,是她在自己下班 ...
wbzboy 评论(0) 有1730人浏览 2008-10-26 14:35

Hadoop-- 海量文件的分布式计算处理方案

Hadoop-- 海量文件的分布式计算处理方案 来源:CSDN作者:江南白衣 发布时间:2008-02-06 08:00:00   Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的 ...
wbzboy 评论(0) 有1502人浏览 2008-10-26 14:33

Hadoop分布式文件存储系统

Hadoop分布式文件存储系统 Posted by Y.D. in June 7th 2008   http://hadoop.apache.org/core/docs/current/index.html Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等 Yahoo仿照Google文件系统开源的分布式文件存 ...
wbzboy 评论(0) 有5663人浏览 2008-10-26 12:43

MapReduce:超大机群上的简单数据处理

MapReduce:超大机群上的简单数据处理                                           摘要 MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来 ...
wbzboy 评论(0) 有1133人浏览 2008-10-25 16:03

Nutch中MapReduce的分析

作者:马士华 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ...
esteem 评论(0) 有1840人浏览 2008-10-20 17:55

Map/Reduce 分析

转自 http://www.mengyan.org/blog/archives/2006/11/15/138.html   在Google,每天有海量的数据需要在有限的时间内进行处理(其实每个互联网公司都会碰到这样的问题),每个程序员都需要进行分布式的程序开发,这其中包括如何分布、调度、监控以及容错等等。Google的MapReduce正是把分布式的业务逻辑从这些复杂的细节中抽象出来,使得没有或者很 ...
esteem 评论(0) 有2005人浏览 2008-10-15 14:54

毕业论文 构思 Map/Reduce

又要毕业了,毕业论文难搞。 研究下Map/reduce 看能有所利用不。 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://dreamhead.blogbus.com/logs/2617482.html MapReduce是Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。至少现阶段而言, ...
esteem 评论(0) 有1748人浏览 2008-10-15 14:40

2008/10/13 links

merbcamp: http://merbist.com/ http://www.merboverheard.com/ http://rubypond.com/articles/2008/10/11/merbcamp---notes-from-the-edge/ http://rubypond.com/articles/2008/10/12/merbcamp---day-2/ http://chin ...
xxj 评论(0) 有1156人浏览 2008-10-13 09:18

近期会做的项目

1. 大规模文本自动聚类。 目前实验条件有限,只能做到G级别,语料采用搜狐的新闻。 用mapreduce并行化分词,建立VSM。采用经典的tf/idf。 然后并行化的canopy算法进行粗分 再用并行化的k-means,余弦距离度量进行最后的聚类 思路已经想得非常清楚了,接下来就是写代码,得出数据。 2. 大规模文本自动分类。 采用svm或naive bayes算法,前面几步已经想清,最后的并行化没 ...
coderplay 评论(6) 有3051人浏览 2008-10-11 17:01

为什么大多数大型网站不是用Java写的

国庆长假,老外在热烈的讨论这个话题, 原文地址: http://natishalom.typepad.com/nati_shaloms_blog/2007/10/why-most-scalab.html 我摘录部分观点如下: Most of these sites are using LAMP as the core runtime stack Some develop their own file ...
lujar 评论(0) 有761人浏览 2007-10-08 09:33

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics