最新文章列表

HIVE问答, 某天的hadoop群聊天记录

某天晚上在hadoop群里一时兴起, 回答了一些hive相关的问题, hive的初学者可以看看 :)     梁建:    hive 主要用于 结构化数据 吗? 我:    结构化数据 梁建:    hadoop 0.19.1 和 那个  hive 版本 配置 我:    它走的是传统数据库, 有compiler解析sql,形成mapreduce任务 我:    hive都支持 ...
coderplay 评论(4) 有10903人浏览 2009-05-07 17:10

Nutch中MapReduce的分析

作者:马士华 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Updat ...
gcgmh 评论(0) 有942人浏览 2009-05-07 00:44

暨南大学并行计算实验室MapReduce研究现状

4月份在学校花了半小时做的一个ppt,  内容是我们在应用hadoop集群上的一些监控、调试、调优经验, hadoop的改造思路及我们的分布式数据挖掘项目介绍。有一些东西做了删减,请下载附件。
coderplay 评论(6) 有5142人浏览 2009-05-04 21:20

四,nutch 1.0 网站与爬虫的属性配置文件研究

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com). 本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献. 我的个人资料http://www.google.com/profiles/solomon.royarr 好不容易有空闲一天的时间写点东西, 可是发现这离开已久(其实只有 ...
zolomon 评论(0) 有5186人浏览 2009-05-04 11:04

Hadoop 安装

1. wget http://apache.freelamp.com/hadoop/core/hadoop-0.19.1/hadoop-0.19.1.tar.gz 2. tar xvzf hadoop-0.19.1.tar.gz 3. vi conf/hadoop-env.sh ###add JAVA_HOME parameter export JAVA_HOME=/u ...
lovejuan1314 评论(0) 有1537人浏览 2009-04-28 16:44

Hadoop中的集群配置和使用技巧

作者 岑文初 发布于 2008年8月7日 下午1时39分 社区 Java 主题 网格计算 , 集群与缓存 标签 Hadoop ── 分布式计算开源框架Ha ...
PowerNTT 评论(0) 有1039人浏览 2009-04-24 12:25

分布式计算开源框架Hadoop介绍

分布式计算开源框架Hadoop介绍 作者 岑文初 发布于 2008年8月4日 上午2时15分 社区 Java 主题 网格计算 , 集群与缓存 标签 Hadoop ...
PowerNTT 评论(0) 有960人浏览 2009-04-24 12:22

我想学习的搜索之路

接到任务以后,五一前的这几天应该一直都很忙,自己想学习搜索这一块的计划,也不得不推迟一些了。 先给自己列一个计划吧。 先用lucene+paoding制作个简单的搜索demo 学习pagerank,实现个基本的pagerank集成到搜索demo中 学习hadoop,了解集群搭配,mapreduce、google file system、Hadoop distributed file syste ...
wnzz95391511 评论(0) 有979人浏览 2009-04-20 21:39

云计算七问七答

http://www.infoq.com/cn/articles/questions-about-cloud-computing   云计算七问七答 作者 吕维德 发布于 2009年3月28日 上午12时30分 社区 Architecture ...
PowerNTT 评论(0) 有902人浏览 2009-04-15 15:52

前面题目的答案

leongfans的解法是正确的。下面给出一个更清楚的过程,用图表示,不文字描述啦。 要点就是中间结果需要附加一些信息,保证在解的过程中,上下文的信息是充分的。利用这种方法,我们还可以用MapReduce做图上的宽度优先搜索。  
caibinbupt 评论(6) 有4999人浏览 2009-04-03 16:59

“换汤不换药”的技术概念或者理念

      或许这个标题不太能够贴切地表达我想说的意思,不过, 先暂且“挂羊头”在这里,下面是我们的“卖狗肉”时间,呵呵...       这几天 ...
fujohnwang 评论(0) 有1243人浏览 2009-03-26 16:03

hadoop 0.13 api 翻译

下面给出了Hadoop的包的功能分析。 Package Dependences tool 提供一些命令行工具,如DistCp,archive mapreduce Hadoop的Map/Reduce实现 filecache 提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度 fs 文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口 ...
yanhui1984 评论(0) 有947人浏览 2009-03-25 03:09

出个题,用MapReduce解决下面的问题

实在不好意思,最近特别忙(而且不是在忙项目,唉),更新也就特别慢。啥都没写,出个题吧。 有向图,输入是所有的边,如下图的输入是<A, B>,<A, C>,<A, D>,<A, E>,<B, C>,<B, F>,<E, D>和<C, G>,输出是图中所有这样三角形<x, <y,z>& ...
caibinbupt 评论(5) 有7080人浏览 2009-03-24 16:43

nutch在单机windows下测试环境的配置

   通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。 下面分步骤详述。 1.安装JDK 6,eclipse3.2以上版本 2.为eclise安装IBM mapreduce tools插件 http://www.alphaworks.ibm.com/tech/mapreducetools 3.安装cygwin,并设置环境 ...
yuhai.china 评论(0) 有1121人浏览 2009-03-19 13:53

使用Erlang实现一个迭代器iterator

最近比较忙, 一来是在努力学习Erlang, 二来是恋恋不舍那几个开源的小项目,三来是熟悉亲爱的R13A... 加上令人头疼的公司的事情, 导致我很忙... 哎... 为了保持博客的新鲜度, 就贴一点充数的资料吧..呵呵... 在我前段时间搞的一个开源的mapreduce小框架中, 对于map, reduce数据流的读取, 我抽象出一个迭代器, 进行数据的读取. 这样我的数据无论来自local ...
litaocheng 评论(0) 有2558人浏览 2009-03-19 10:51

基于云计算的数据挖掘

    一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面 ...
yangsq 评论(7) 有4653人浏览 2009-03-18 21:45

Hadoop学习笔记二 安装部署

本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74 这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。 ...
longgangbai 评论(0) 有1724人浏览 2009-03-17 15:41

Hadoop学习笔记一 简要介绍

这里先大致介绍一下Hadoop.    本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的 ...
longgangbai 评论(0) 有1774人浏览 2009-03-17 15:40

从HDFS API看移动计算(HDFS的设计目标和假设之一 )

已经自己的研究和一个师兄讨教后,发现HDFS提供给程序员使用的API,主要是FileSystem和DFSClient,这两个类提供了用于创建目录,创建文件,取得文件信息的方法,FileSystem是高层的一个类,DFSClient是一个底层的类,FileSystem使用了DFSClient,DFSClient可以比FileSystem相比拿到一些更详细的信息,如文件包括那些block,以及block ...
bupt04406 评论(0) 有1627人浏览 2009-03-17 11:11

Nutch-0.9源代码:Injector类

2008年10月05日 星期日 22:39 在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示: inject操作调用的是nutch的核心包之一crawl包中的类or ...
lylewolf 评论(0) 有774人浏览 2009-03-11 17:31

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics