最新文章列表

Nutch开源搜索引擎的crawl日志分析及工作目录说明

看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。 可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。 crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
banditjava 评论(1) 有3864人浏览 2008-09-19 17:42

基于本体的在线地理信息服务平台(~~~~~~~~~~~~~~)

 基于本体的在线地理信息服务平台 ----张恒才   一数据基础-<o:p></o:p> (组织合理包含知识+语义地理信息数据库)<o:p></o:p> <o:p> </o:p> (1)本体库<o:p></o:p> (2)地理信息数据库<o:p></o:p> (3) ...
hengcai001 评论(0) 有860人浏览 2008-09-17 23:39

俺的linux常用命令技巧

查找目录dir中后缀为*.c和*.h的文件   用正则 find dir -type f -name '*.[ch]'   不用正则 find dir -type f -name '*.c' -o '*.h'   在目录a下建立目录b,而目录a可能不存在 mkdir -p a/b   查看dir目录下面所有txt文件中含有"string"串的总行数  find dir -type ...
coderplay 评论(3) 有2377人浏览 2008-09-16 12:57

研究Nutch开源搜索引擎心得记录

---------------20080828------------ 下载源码,初步研究 --------------20080829------------- http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx 前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的 ...
banditjava 评论(1) 有3627人浏览 2008-09-11 16:07

深入了解Hadoop

-----------------------20080827------------------- 深入了解hadoop http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html 一、前提和设计目标 1、硬件错误是常态,而非异 ...
banditjava 评论(0) 有2225人浏览 2008-09-11 16:05

研究hadoop分布式计算平台及三台服务器的实现

--------------------20080819------------ 参考文章 http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html http://ww ...
banditjava 评论(1) 有3132人浏览 2008-09-11 16:03

我的开源搜索引擎之路

    老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的 ...
banditjava 评论(39) 有25866人浏览 2008-09-11 15:41

接触Hadoop

     开始研究Hadoop,主要是为了完成课题。但现在的问题是Java还没弄得很清楚,而Hadoop又都是Java的东西,迷茫!      要研究Hadoop,先要学学Google的MapReduce,参考的就是GoogleMapReduce: Simplified Data Processing on Large Clusters(MapReduce:超大机群上的简单数据处理),到处可以下载到 ...
radarradar 评论(0) 有810人浏览 2008-09-08 20:54

KFS编译和安装

  最近看了一下 Kosmos File System (KFS), 目前的版是 0.2.1 。现在总结一下。 KFS 是一个克隆 GFS 的文件系统,用 C++ 编写,客户端支持 C++,pyton ...
niedhui 评论(2) 有5336人浏览 2008-09-07 16:47

HADOOP的学习笔记

Hadoop的学习笔记 Hadoop的下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/core/ 1. Hadoop的应用场合: 适合海量数据的分析,其实Google最早提出MapReduce也就是为了海量数据分析。同时HDFS最早是为了搜索引擎实现而开发的,后来才被用于分布式计算框架中。海量数据被分割于多个节点,然后由每一个节点并行计算,将得出 ...
LIMIMGJIE 评论(0) 有3251人浏览 2008-09-05 16:35

HADOOP的初次尝试

Hadoop的下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/core/ 版本:hadoop0.17.1 JDK的安装: 要求必须安装jdk1.5.07以上的版本。 分步式环境的搭建: 1、 硬件环境 我们采用了3台机器来构建,都安装的是Red Hat 4.1.2-42系统,并且都有一个名为“mingjie“的帐号,如下:           ...
LIMIMGJIE 评论(1) 有1994人浏览 2008-09-05 15:19

Hadoop中的集群配置和使用技巧── 分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就 ...
hengcai001 评论(0) 有899人浏览 2008-09-04 22:33

分布式计算开源框架Hadoop介绍 作者:岑文初 来源:InfoQ  

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志 ...
hengcai001 评论(0) 有1755人浏览 2008-09-04 22:30

一些分布式文件系统

目前发现的一些分布式文件系统,还没有时间进行详细研究 MogileFS : 与 memcached 是一个公司出的,好像 Flickr 在用 Hadoop/HDFS: Yahoo 的,用 java 开发的 Gluster(Gluster File System) : RedHat GFS : PVFS : FastDFS : 对 MogileFS 的改进?  
jiming 评论(0) 有2220人浏览 2008-09-03 11:21

Hadoop--海量文件的分布式计算处理方案

   作者:江南白衣,原文出处:http://www.blogjava.net/calvin/archive/2007/02/08/98688.html,转载请保留。       Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, Map ...
gaoyuntao2005 评论(0) 有1022人浏览 2008-08-28 13:18

【hadoop】hadoop环境快速搭建

前段时间,搭建了一个hadoop分布式环境,特点在于 1 把定制的配置文件和hadoop源码分开,这样升级hadoop版本的时候,不需要重新修改配置文件; 2 经常要在集群模式/单点模式下进行切换 硬件准备情况: 有4台机器,一台作为namenode,三台作为datanode,机器名分配如下 10.2.224.24 namenode 10.2.224.25 datanode1 10.2.224.2 ...
uniseraph 评论(0) 有4042人浏览 2008-08-26 14:37

第一个MapReduce任务

    前两天在公司内网上搭了个2个节点hadoop集群,暂时没有多大实际意义,仅用作自己的测试。遇到的问题在阿里巴巴这位仁兄的《Hadoop集群配置和使用技巧 》都有提到的。也遇到了reduce任务卡住的问题,只需要在每个节点的/etc/hosts将集群中的机器都配置上即可解决。    今天将一个日志统计任务用Hadoop MapReduce框架重新实现了一次,数据量并不大,每天分析一个2G多 ...
dennis_zane 评论(0) 有2784人浏览 2008-08-23 11:10

从HDFS看分布式文件系统的设计需求

    分布式文件系统的设计目标大概是这么几个:透明性、并发控制、可伸缩性、容错以及安全需求等。我想试试从这几个角度去观察HDFS的设计和实现 ...
dennis_zane 评论(4) 有8120人浏览 2008-08-15 22:39

google支持

Google BigTable算法 MapReduce:超大机群上的简单数据处理Hadoop开源Google File System<nobr>-</nobr>
hengcai001 评论(0) 有767人浏览 2008-05-11 13:34

java备忘

1,ImageMagick一个优秀的图像处理软件,JMagick是对ImageMagick的JAVA面向对象化包装2,  * @see       #create(int, int, int, int)   * @see       Component#getGraphics()3,Process Monitor 查看IO操作http://technet.microsoft.com/zh-cn/sy ...
letitbe 评论(0) 有742人浏览 2008-03-15 02:43

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics