katta--常用命令

数据结构

listNodes 列出所有节点 listIndexes 列出所有的Index showStructure 显示katta结构 check 显示有用的部署信息 version 显示katta的版本 addIndex <index name> <path to index> <lucene analyzer class> [<replication level>] 部署index remove ...

2009-04-13 11:37
浏览 1628
评论(0)

katta--索引的管理者

博客分类：

katta

配置管理项目管理 Hadoop lucene 应用服务器

介绍 katta 是一个运行在许多商品硬件服务器上的分布式应用，它非常类似于Hadoop MapReduce, Hadoop DFS, HBase, Bigtable 和 Hypertable. 概述主节点服务器管理从节点服务器和index shards任务。从节点服务器服务index shards。客户端允许从所有连接的节点上查找数据，并把所有的结果合并成一个结果返回给客户端。数据结构 katta的索引是个文件夹，它里面包含一套所谓的index shards（文件形式）。这些子文件包含了Lucene索引。 index shards能够很简单的用Lucene的index writer创建 ...

2009-04-13 11:21
浏览 3681
评论(0)
论坛回复 / 浏览 (0 / 5804)

解决Hadoop报Name node is in safe mode 错误

Hadoop Apache

运行hadoop程序时，有时候会报以下错误： org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 这个错误应该还满常见的吧（至少我运行的时候是这样的）那我们来分析下这个错误，从字面上来理解： Name node is in safe mode 说明Hadoop的NameNode处在安全模式下。那什么是Hadoop的安全模式呢？在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允 ...

2009-04-11 14:58
浏览 9096
评论(2)
论坛回复 / 浏览 (0 / 3283)

向HBase中插入数据

博客分类：

hbase

HBase Hadoop Apache UP

import java.io.IOException; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Scanner; import org.apache.hadoop.hbase.io.BatchUpdate; import org.apache.hadoop.hbase.io.Cell; import org.apache.hadoop.hbase.io.RowResult; import org.apache.hadoop.hbase.util.Bytes; publ ...

2009-04-11 12:18
浏览 6579
评论(0)

HBase的安装配置

博客分类：

hbase

HBase Hadoop Java JVM JDK

首先需要先下载HBase最新且稳定的版本：http://www.apache.org/dyn/closer.cgi/hadoop/hbase 然后把它解压，把解压下来的文件移动到一个目录下如/home/user/hbase $ cd /home/user/hbase 进入此目录 $ vi conf/hbase-env.sh export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.03 编辑 conf/hbase-env.sh 文件,修改JDK的路径 $ vi conf/regionservers 输入你的所有HBase服务器名 $ bin/s ...

2009-04-10 17:46
浏览 3168
评论(0)
论坛回复 / 浏览 (0 / 8636)

用Solr服务器建索引

博客分类：

hbase

Solr lucene 编程搜索引擎 Apache

Solr 最初由 CNET Networks 开发，2006 年初，Apache Software Foundation 在 Lucene 顶级项目的支持下得到了 Solr。Solr 于 2007 年 1 月酝酿成熟，在整个项目孵化期间，Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene（Apache 的基于 Java 的全文本搜索引擎库）的一个子项目。用Solr服务器建索引的前提是你已经把Solr服务器给搭建起来了 public class CreateIndex { public static final String LINE ...

2009-04-10 17:19
浏览 1638
评论(0)
论坛回复 / 浏览 (0 / 2591)

Hadoop的升级

博客分类：

hadoop

Hadoop

现在我使用的Hadoop版本是0.19.0，我要把它升级到0.19.1 操作步骤：将hadoop-0.19.0升级到hadoop-0.19.1首先当然是下载hadoop-0.19.1 把传至主节点上,并且把0.19.1修改成和hadoop-0.19.0同样的配置后,分派到从节点上停止Hadoop群集：在主节点的目录中 bin/stop-dfs.sh 进入从节点的hadoop-0.19.1 ： bin/start-dfs.sh -upgrade 然后启动namenode,这样就升级完成。如果有需要回到老版本的Hadoop,那么可以: a.停止集群，分发部署老版本的Hado ...

2009-04-10 16:56
浏览 1961
评论(1)
论坛回复 / 浏览 (1 / 2518)

Hadoop的安装配置

博客分类：

hadoop

Hadoop SSH CentOS XSL XML

3台机器:master(10.0.0.200),slave1(10.0.0.201),slave2(10.0.0.202) 系统都为Centos 5 假设将master做为namenonde,将slave1和slave2做为datanode 1.在master:(在slave1和slave2上操作和以下相同) vi /etc/hosts 10.0.0.200 master 10.0.0.201 slave1 10.0.0.202 slave2 2.用root登陆,建立hadoop用户 useradd hadoop passwd hadoop 输入111111做为密码 ...

2009-04-10 16:50
浏览 10578
评论(2)
论坛回复 / 浏览 (2 / 38460)

Nutch的配置使用

博客分类：

nutch

Tomcat CentOS XSL XML 搜索引擎

先介绍下：Nutch主要分为两个部分：爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。　　Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。环境：JDK1.6 Centos 5 把Nutch下下来后解压在Nutch的安装目录中建立一个名为url.txt的文本文件，文件中写入要抓取 ...

2009-04-10 16:20
浏览 1670
评论(0)
论坛回复 / 浏览 (0 / 5299)

katta的分布式

博客分类：

katta

Hadoop CentOS zk 配置管理项目管理

现在来进行Katta的分布式运行配置，Katta是用来进行分布式索引管理的项目，可以出来大数据量的插入和查询。我使用的三台机器分别为master，node1，node2，系统都为Centos 5 在下载回来的文件解压后进入conf文件夹，在里面需要改几个文件 masters文件把localhost改成master（主节点名） nodes文件 node1 node2（加入你的节点机器的名称） katta.zk.propeties文件 # comma serperated list of host:port that should run a zookeeper server, # m ...

2009-04-10 15:45
浏览 2329
评论(2)
论坛回复 / 浏览 (1 / 3369)
分类:企业架构

katta初体验

博客分类：

katta

lucene Hadoop CentOS Linux Apache

近来在研究分布式，在网上看到Katta，是个很强悍的东西，拿来分享下.... Katta is a scalable, failure tolerant, distributed, indexed, data storage. Katta serves large, replicated, Lucene indexes as shards to serve high loads and very large data sets. Makes serving large or high load Lucene indexes easy Serves very large Lucene inde ...

2009-04-10 15:27
浏览 1800
评论(1)
论坛回复 / 浏览 (0 / 2626)

ZooKeeper（转载）

博客分类：

Zookeeper

很高兴得看到Yahoo捐献的Zookeeper已经从sourceforge迁移到Apache,并成为Hadoop的子项目.那么ZooKeeper是什么呢?Zookeeper是Google的Chubby一个开源的实现.是高有效和可靠的协同工作系统.Zookeeper能够用来leader选举,配置信息维护等.在一个分布式的环境中,我们需要一个Master实例或存储一些配置信息,确保文件写入的一致性等.Zookeeper能够保证如下3点: Watches are ordered with respect to other events, other watches, and asynchronous ...

2009-04-10 15:12
浏览 1699
评论(1)
论坛回复 / 浏览 (1 / 1423)
分类:企业架构

ZooKeeper--协调分布式应用（2）

博客分类：

Zookeeper

应用服务器 C C++C#工作

连接到ZooKeeper 一旦ZooKeeper运行起来，我们必然想要连接它，有几个方法可以用于连接到它，可以用java，也可以用C，这里我用java： bin/zkCli.sh 127.0.0.1:2181 用java操作起来很简单。（想用C的朋友可以去Zookeeper的官网看） ZooKeeper运行复制模式 ZooKeeper运行在独立模式下可以方便的评价，做一些开发和测试工作。但是，在产品过程中，你应该把ZooKeeper运行在复制模式下。复制组的服务器在同一应用中被称为quorum，在复制模式下，所有服务器中的quorum已拷贝了相同的配置文件。该配置文件是类似于用在独立模式 ...

2009-04-10 10:20
浏览 1819
评论(0)

ZooKeeper--协调分布式应用

博客分类：

Zookeeper

应用服务器 Hadoop Linux IDE JDK

条件： ZooKeeper运行在Java中，需要JDK1.6或更高版本的JDK 。ZooKeeper服务器作为一个整体运行。三个ZooKeeper服务器是建议的最低规模的集合，Zookeeper官网还建议，每个ZooKeeper服务器要在单独的机器上运行。ZooKeeper通常部署在专用版Linux系统上，配置为双核心处理器， 2GB内存，和80GB的IDE硬盘驱动器。下载： Zookeeper下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/zookeeper/ ZooKeeper的独立模式建立一个ZooKeeper服务器独立模式很简单。 ...

2009-04-10 09:47
浏览 2473
评论(0)

Solr+Tomcat在Windows下的搭建

博客分类：

solr

Solr Tomcat Windows lucene Apache

最近在学习收索引擎，找了一些资料，学着在Windows下搭建Solr+Tomcat，可是网上的资料要么太老，要么就是英文版的，看着很费劲。先来说说Solr，Solr 最初由 CNET Networks 开发，2006 年初，Apache Software Foundation 在 Lucene 顶级项目的支持下得到了 Solr。Solr 于 2007 年 1 月酝酿成熟，在整个项目孵化期间，Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene（Apache 的基于 Java 的全文本搜索引擎库）的一个子项目。下面是我的搭建过 ...

2009-02-17 22:15
浏览 2821
评论(0)
论坛回复 / 浏览 (0 / 3714)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

katta--常用命令

katta--索引的管理者

解决Hadoop报Name node is in safe mode 错误

向HBase中插入数据

HBase的安装配置

用Solr服务器建索引

Hadoop的升级

Hadoop的安装配置

Nutch的配置使用

katta的分布式

katta初体验

ZooKeeper（转载）

ZooKeeper--协调分布式应用（2）

ZooKeeper--协调分布式应用

Solr+Tomcat在Windows下的搭建

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>