现在来进行Katta的分布式运行配置,Katta是用来进行分布式索引管理的项目,可以出来大数据量的插入和查询。
我使用的三台机器分别为master,node1,node2,系统都为Centos 5
在下载回来的文件解压后进入conf文件夹,在里面需要改几个文件
masters文件
把localhost改成master(主节点名)
nodes文件
node1
node2(加入你的节点机器的名称)
katta.zk.propeties文件
# comma serperated list of host:port that should run a zookeeper server, # make sure you use hostnames and not ip addresses
zookeeper.servers=<master>:2181 (把localhost改成master)
...
katta-env.sh文件
# Set Katta-specific environment variables here.
...
# The java implementation to use. Required.
export JAVA_HOME=/usr/lib/j2sdk1.5-sun (JDK目录)
...
# host:path where hadoop code should be rsync'd from. Unset by default.
export KATTA_MASTER=server0:/home/$USER/katta-distribution
...
在三台机器上做同样的部署
启动:bin/start-all.sh
关闭:bin/stop-all.sh
接下来部署索引,让Katta来管理索引
部署索引的格式
bin/katta addIndex <name of index> [file:///<path to index>|hdfs://<server name>/<path to index>] <lucene analyzer class name> <replication level>
如果你有装hadoop集群的话,可以把在hadoop上的索引部署到Katta上,让Katta来管理
查找的格式
bin/katta search <index name>[,<index name>,...] “<query>” [count]
然后当然是列出你要查找的数据咯
分享到:
相关推荐
《Katta:分布式搜索引擎解决方案详解》 Katta,作为一个开源的分布式搜索引擎解决方案,为处理海量数据的搜索需求提供了高效、可扩展的平台。在本文中,我们将深入探讨Katta的核心特性、工作原理以及如何在实际...
Katta的核心组件是其分布式架构,该架构基于Zookeeper进行协调,确保了节点间的通信和数据一致性。Zookeeper作为一个分布式协调服务,为Katta提供了节点发现、状态同步以及配置管理等功能,确保了系统的稳定运行。...
高可用的分布式搜索引擎 Katta 是一个灵感来源于 Hive 和 HBase 运行机制的大数据工具。 索引的导入机制类似 Hive 对表数据的管理; 基于 Index 和 Shard 机制又非常类似于 Hbase 对 Table 和 Region 的管理; ...
**HBase** 是一个分布式、列式存储的NoSQL数据库,基于Google的Bigtable设计,构建于Hadoop之上。它提供了高吞吐量的数据读写能力,适合处理大规模数据。HBase以行键、列族、列和时间戳的方式组织数据,这使得它在...
除了 Lucene 和 ES,还有 Solr、HadoopContrib、Katta 等全文检索工具。每种工具都有其特点和优缺,选择合适的工具取决于项目的需求和实际情况。 四、Bulk 一次最大处理多少数据量? Bulk 会把将要处理的数据载入...
多斯蒂·卡塔(Dosti Katta) 一种社交媒体应用程序,人们可以结识来自世界各地的数百万新朋友,并与他们建立联系以结交新朋友 :men_holding_hands: 网站网址 特征 - Authentication - Profile Viewing - Set ...
Katta是一个分布式数据存储系统,旨在处理大量重复和索引的数据碎片,以应对高负载和大数据集的挑战。它支持多种数据类型,如Lucene索引和Hadoop MapFiles,确保在节点故障时的容错性和可扩展性。 5. Bobo Browse ...
21011.1.3 深入HiveQL 21311.1.4 Hive小结 22111.2 其他Hadoop相关的部分 22111.2.1 HBase 22111.2.2 ZooKeeper 22111.2.3 Cascading 22111.2.4 Cloudera 22211.2.5 Katta 22211.2.6 CloudBase 22211.2.7 Aster Data...
覆盆子用于处理 NGS 大数据的快速并行质量控制工具作者:Mohan AVSK Katta ( 、Aamir W Khan ( )、Dadakhalandar Doddamani ( ) 和 Rajeev K Varshney ( ) 基因组学卓越中心ICRISAT,海得拉巴,印度关于处理数百或数...
HEKA Patchmaster进口商 将 HEKA Patchmaster 文件... 核心功能基于 sigTool ( https://doi.org/10.1016/j.neuron.2015.10.042和https://github.com/irondukepublishing/sigTOOL ) 的 HEKA 导入器,并从 Sammy Katta ( ...