最新文章列表

bigtable ,hbase 学习

1.阅读 http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture    hbase architect.  先阅读 bigtable .http://labs.google.com/papers/bigtable.html   Want asynchronous processes to be continuously updating    d ...
stephen80 评论(0) 有2551人浏览 2008-11-10 10:47

学习hadoop,发现的问题

发现一些问题,陆续记录进来 1. 我对 MuiltFileInputFormat 的设计费解    为什么继承 FileInputFormat ?    getSplits 的逻辑不一致, 没有道理继承。     通过阅读代码,发现, TextFileInputFormat 本身可以支持文件夹:乱。
stephen80 评论(0) 有813人浏览 2008-11-07 13:51

hadoop 深入

1.下载ibm ,m/R 工具   http://www.alphaworks.ibm.com/tech/mapreducetools 2. 在eclipse 中编译hadoop, 无论如何,不能直接run example    放弃。 3. 用 下载的plug-in ,建立一个m/R 项目    拷贝:hadoop 的项目过来。    run ,ok. 4. 配置 hadoop-site ...
stephen80 评论(0) 有1309人浏览 2008-11-05 18:25

Hadoop源代码分析(一)

经济不行啦,只好潜心研究技术。 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs ...
caibinbupt 评论(19) 有48563人浏览 2008-11-04 21:22

nutch 学习:Fetcher2,Hbase

1.配置nutch 在eclipse 中可以单步跟踪 2.       修改 nutch, 从 Fetcher1 到 Fetcher2 ,  每个host 一个队列的抓取方式 (同 levin) 3.       参看 nutch 把存储改为 Hbase 的文档      http://www.nabble.com/-jira--Created:-(NUTCH-650)-Hbase-Integ ...
stephen80 评论(0) 有1872人浏览 2008-11-04 10:26

个人网站开张了,欢迎大家来瞧瞧

搞Hadoop和分布式计算也有段时间了,决定开个站把自己的心得写下来,和大家交流下... 考察了不少IDC,最后发现都差不多,好的虚拟主机支持htaccess的不多,支持htaccess的不是贵就是小IDC。 建站系统比较头疼,肯定没时间自己开发一套,何况php又不熟。国内的几个觉得功能太复杂,我又不是要搞门户网站..最后用了Mambo,发现因为htaccess的问题不好做sef,搜索引擎大概不 ...
manbearpig1 评论(0) 有944人浏览 2008-10-31 08:38

怎么在hadoop作map/reduce时输出N种不同类型的value

BTW:再次感叹下没有机器, 3.4G的语料,单机处理了10来个小时, 真是郁闷~~ 要是有N台机器多好啊.   在很多时候,特别是处理大数据的时候,我们希望一道MapReduce过程就可以解决几个问题。这样可以避免再次读取数据。比如:在做文本聚类/分类的时候,mapper读取语料,进行分词后,要同时算出每个词条(term)的term frequency以及它的document frequency. ...
coderplay 评论(6) 有11318人浏览 2008-10-30 04:46

mapreduce 学习过程

1. 大致阅读 mapred_tutorial.pdf 2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行     bin/hadoop jar mylib/tuthadoop.jar  com.***.tut.WordCount input1 output1 3. 缺省的 input ,会读 input1 底下的每个文件的每一行    缺省的output ,会把每一行写入o ...
stephen80 评论(0) 有962人浏览 2008-10-29 18:06

hadoop 学习过程

1. quickstart    主要是配置 JAVA_HOME 2. hdfs     hdfs_design ,中文     http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html     明白了 hdfs 架构。         hdfs_user_guide ,     http://www.blogjava.n ...
stephen80 评论(0) 有1295人浏览 2008-10-28 18:11

应用中的分布式与加密

在服务器端采用分布式计算和分布式文件系统,分布式数据库已经渐渐成为主流应用场景.采用分布式文件系统和分布式数据库的目标主要是解决物理存储 ...
ithero 评论(0) 有1254人浏览 2008-10-27 15:04

使用Hadoop搭建分布式存储和分布式运算集群

1. 列出使用的机器 普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。 机器名:finewine01finewine02finewine03 将finewine01设为主节点,其它的机 ...
ithero 评论(0) 有2771人浏览 2008-10-27 14:24

最近项目进展及Hadoop自定义InputFormat

    题外话: 请关注http://code.google.com/p/redpoll     如果有人可以提供10台左右普通机器测就好了,学校实验室不给这么多,俺已经写了一篇paper, 程序啥 ...
coderplay 评论(5) 有6950人浏览 2008-10-27 03:04

hadoop 分布式文件系统安装

hadoop应用之安装篇 hadoop 分布式文件系统安装——For FreeBSD7 (初稿20080228_Rhinux) 感谢:首先感谢我的女朋友在我加班测试系统的时候,是她在自己下班 ...
wbzboy 评论(0) 有1727人浏览 2008-10-26 14:35

Hadoop-- 海量文件的分布式计算处理方案

Hadoop-- 海量文件的分布式计算处理方案 来源:CSDN作者:江南白衣 发布时间:2008-02-06 08:00:00   Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的 ...
wbzboy 评论(0) 有1500人浏览 2008-10-26 14:33

java相关技术资源列表

http://www.ibm.com/developerworks/cn/(IBM开发者写的大牛文章集合)。好多最新技术可以在这找到,深有体会! http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/in ...
wbzboy 评论(0) 有1242人浏览 2008-10-26 12:57

Hadoop分布式文件存储系统

Hadoop分布式文件存储系统 Posted by Y.D. in June 7th 2008   http://hadoop.apache.org/core/docs/current/index.html Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等 Yahoo仿照Google文件系统开源的分布式文件存 ...
wbzboy 评论(0) 有5661人浏览 2008-10-26 12:43

分布式信息检索

http://blog.csdn.net/active1001/archive/2007/07/02/1675938.aspx 分布式计算开源框架Hadoop介绍――分布式计算开源框架Hadoop入门实践(一) http://www.infoq.com/cn/articles/hadoop-intro Hadoop中的集群配置和使用技巧――分布式计算开源框架Hadoop入门实践(二) http:/ ...
wbzboy 评论(0) 有1222人浏览 2008-10-25 16:08

在eclipse下编译运行nutch

1.       下载Nutch 并解压到某个目录下,建议在根目录下。 2.       修改 Nutch\conf 目录下的 nutch-site.xml 和crawl-urlfilter.txt 两个文件,具体的修改方法如下: (1) nutch-site.xml:   在<configuration></configuration>中间插 ...
zhangxiang390 评论(1) 有7394人浏览 2008-10-24 11:31

nutch的安装(转)

nutch作为开源代码,为热爱搜索引擎的开发人员们提供了很好的学习平台,0.8版本开始,采用了Hadoop作为自己的分布式文件系统,更是把nutch同其他开源搜索引擎的差距拉开。 ntuch提供了一个高效、开源、易操作的搜索引擎,内部有许多细微之处都是值得借鉴的,例如采用了hadoop的分布式文件系统,类似eclipse 的插件技术,apache的httpclient来访问网站,org.cybern ...
zhangxiang390 评论(0) 有1641人浏览 2008-10-24 09:25

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics