最新文章列表

Nutch中MapReduce的分析

作者:马士华 发表于:2008-03-06 20:11 最后更新于:2008-03-07 12:44 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。 http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/ ----------------------------------------------------------- ...
gavinlau 评论(0) 有1117人浏览 2009-09-17 21:42

第12章 分布式计算

1.         对于海量小文件,采用MapReduce方式分布式框架计算,例如可以分布式统计日志。 MapReduce:是Google 的分布式计算框架,主要是使用让数据和任务进行分解。 Map:让不同的计算机同时去执行部分数据和任务。 Reduce:产生中间结果集,并把所有中间结果结进行汇总,产生最终的结果集返回给计算调用者。 2.         对于文件下载和升级,文件数目很多
llhdf 评论(0) 有1376人浏览 2009-09-17 09:21

Hadoop学习笔记二 安装部署

转自:http://www.cnblogs.com/wayne1017/archive/2007/03/20/678724.html   本文主要是以安装和使用hadoop-0.12.0 为例,指出在部署Hadoop的时候容易遇到的问题以及如何 ...
icarusliu 评论(0) 有1117人浏览 2009-09-16 09:17

Hadoop学习笔记一 简要介绍

转自:http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html   这里先大致介绍一下Hadoop.     本文大部分内容都是从官网 Hadoop 上来的。其中有一篇 ...
icarusliu 评论(0) 有1130人浏览 2009-09-16 09:14

用户推荐Slope One算法与mapreduce&hive实现

下载本文代码 用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。 本文要描述的Slope One 算法是一种对评分进行预测的 ...
coderplay 评论(6) 有10620人浏览 2009-09-14 20:23

网站架构相关PPT、文章整理

网站架构相关PPT、文章整理   1、amazonAmazon的分布式key-value存储系统(dynamo)的论文 2、ebay(对于eBay这几个PPT的一些看法和评价:http://www.blogjava.net/BlueDavy/archive/2009/07/24/288055.html )ebay架构演变历程(The eBay Arch ...
wangrui 评论(1) 有1994人浏览 2009-09-10 13:46

Hadoop分布式集群配置总结

Hadoop分布式集群配置总结 假设用2台机器配置hadoop分布式集群,192.168.11.13为主服务器namenode,192.168.11.17为数据节点datanode 1. 配置SSH的无密码公钥 192.168.11.13 用root登录 创建用户linleran:adduser linleran 设置密码:passwd linleran 切换用户:su linleran 到用户li ...
malixxx 评论(0) 有2502人浏览 2009-08-31 14:30

用 Hadoop 进行分布式并行编程(1)

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成 ...
mintelong 评论(0) 有2362人浏览 2009-08-27 21:15

我的开源搜索引擎之路

  原文地址:http://banditjava.iteye.com/blog/240643   老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑 ...
wallimn 评论(0) 有1830人浏览 2009-08-18 12:31

用 Hadoop 进行分布式并行编程

Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可 ...
fly.net.cn 评论(0) 有1469人浏览 2009-08-16 02:51

Map Reduce - the Free Lunch is not over?

http://www.mengyan.org/blog/archives/2006/11/15/138.html 微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn ...
zior 评论(0) 有613人浏览 2009-08-10 10:36

hadoop安装部署

本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是j ...
hupy 评论(0) 有1128人浏览 2009-08-09 16:47

Nutch中MapReduce的分析

作者:马士华 发表于:2008-03-06 20:11 最后更新于:2008-03-07 12:44版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/   Nutch是最早用MapReduce的项目(Hadoop其实原来是Nutch的一部分),Nutch的plugi ...
hupy 评论(0) 有1460人浏览 2009-08-09 10:22

Reading Note of MapReduce: Simplified Data Processing on Large Clusters

======================================================================= Reading Note of MapReduce: Simplified Data Processing on Large Clusters ========================================================= ...
yaojingguo 评论(0) 有825人浏览 2009-08-08 11:39

我的Haproxy做负载均衡的几个配置

Normal 写道global maxconn 4096 nbproc 2 defaults mode http clitimeout 150000 srvtimeout 30000 contimeout 4000 balance roundrobin stats enable stats uri /haproxy?stats frontend couchdb_lb bind 10.2.226.13 ...
CharlesCui 评论(1) 有3904人浏览 2009-08-07 18:23

Hadoop 模拟多通道 MapReduce

  Hadoop C++ Streaming 可以直接读取压缩文件,提取其中的日志。程序流程如下:   每个 map 进程从 stdin 读取压缩的日志文件。产生 3 种不同的记录,每个记录一行,写到 stdout 。每种日志每行第一个字符不同,用来做日志种类的区分。 通过这种方式,可以有效地将计算分布到集群中不同的进程。因为: IP 相同的 ip 记录,一定会被分布到相同的进 ...
febird 评论(1) 有1888人浏览 2009-08-06 15:08

Hadoop海量文件的分布式计算处理方案

    Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发 ...
xyf_84 评论(0) 有762人浏览 2009-08-03 11:39

Hadoop学习笔记一 简要介绍

这里先大致介绍一下Hadoop.    本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的 ...
kevin_xu 评论(0) 有1077人浏览 2009-07-28 21:45

HadoopDB : Hadoop + RDBMS

HadoopDB 是耶鲁大学的一些研究人员在进行的一个Opensource项目,类似GreenPlum,Aster Data,描述如下: A hybrid of DBMS and MapReduce technologies that targets analytical workloads Designed to run on a shared-nothing cluster of c ...
argan 评论(1) 有1774人浏览 2009-07-22 14:13

你的编程语言可以这样做吗?

繁体中文翻译见: 你的程式語言可以這樣做嗎? emu翻译的版本 你的编程语言可以这样做吗? From The Joel on Software Translation Project <!-- start conten ...
riali 评论(0) 有494人浏览 2006-08-16 12:02

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics