1、Redhat linux下fluentd+fluentd 实现桥接 http://www.it165.net/os/html/201209/3499.html
2、日志收集系统 Fluentd http://www.linuxdiyf.com/viewarticle.php?id=371318
3、
3-1、SaikuSaiku是一个模块化的分析套件,它提供了一个RESTful服务器,基于JackRabbit的工作区管理,OAuth安全管理和基于JSON或XML的数据通信。其目标是让你在应用程序中嵌入数据分析尽可能的简单。它还提供一个基于jQuery开发的前台来方便安装和运行(http://www.open-open.com/open305825.htm)
3-2、Saiku是一个模块化的开源分析套件,它提供轻量级的OLAP(联机分析处理),并且可嵌入、可扩展、可配置(http://www.oschina.net/p/saiku)
4 运维工具:http://www.opstool.com/category/35
5 Transwarp Data Hub(简称TDH)是国内首个全面支持Spark和Hadoop2的一站式大数据平台
http://www.transwarp.io/product.html
6\activemq 很好的参考资料
http://shensy.iteye.com/blog/1752529
7\ hbase rowkey 设计(三维有序)
http://ronxin999.blog.163.com/blog/static/4221792020130109202973?suggestedreading
8\ hadoop-lzo
https://github.com/twitter/hadoop-lzo/releases
https://github.com/google/snappy
9\Hadoop/Hbase的Snappy安装 .
http://blog.csdn.net/lixucpf/article/details/18314409
10\关于major compact
Here is some help for this command:
Run major compaction on passed table or pass a region row
to major compact an individual region. To compact a single
column family within a region specify the region name
followed by the column family name.
Examples:
Compact all regions in a table:
hbase> major_compact 't1'
Compact an entire region:
hbase> major_compact 'r1'
Compact a single column family within a region:
hbase> major_compact 'r1', 'c1'
Compact a single column family within a table:
hbase> major_compact 't1', 'c1'
土木工程网
11\分词器
11.1 ansj
/////////////////////////////////////
爬虫地址
http://blog.chinaunix.net/uid-22414998-id-3774291.html
hadoop2.0相关
1、安装配置 http://www.kankanews.com/ICkengine/archives/86515.shtml
solr 与hadoop
1\solr4.4+hadoop2.1.0beta整合http://www.kankanews.com/ICkengine/archives/42064.shtml
深入剖析SolrCloud(四)solrcloud 与replication http://www.blogjava.net/wangxinsh55/archive/2012/07/04/382220.html
http://wiki.apache.org/solr/SolrCloud
1\分词
https://github.com/ansjsun/ansj_seg/
2\导数进入solr
http://wiki.apache.org/solr/DataImportHandler#Configuration_in_data-config.xml
3\jvm 优化
利用Arena Allocation避免HBase触发Full GC http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation
4\
https://github.com/NGDATA/hbase-indexer/wiki/Requirements
https://github.com/NGDATA/hbase-indexer/wiki/Installation
分享到:
相关推荐
Hadoop生态环境部署手册_V1.0.doc
【Hadoop生态环境(一).pdf】的概要分析 Hadoop生态环境是一个复杂而庞大的系统,其核心在于处理和存储大规模数据。这篇文档主要探讨了Hadoop生态中的几个关键组件,特别是分布式文件系统和分布式编程模型。 1. **...
【Hadoop生态环境概述】 Hadoop生态系统是一个庞大的开源框架集合,旨在处理和存储大量数据。它最初是为了支持Hadoop Distributed File System (HDFS) 和 MapReduce编程模型而建立的,但随着时间的发展,该生态已经...
里面有tomcat,impala,hadoop,ftp,es。。。。。。。
大数据实施部署
标题《hadoop生态系统搭建》所涉及的知识点主要包括Hadoop集群的搭建、基于Hive的离线分析平台配置、基于Storm的实时数据分析架构搭建,以及SolrCloud和HBase在搜索架构中的应用和整合。 首先,Hadoop生态系统的...
HDFS是Hadoop生态中的分布式文件系统,它允许数据在多台廉价的商用服务器上进行冗余存储,以确保高可用性和容错性。HDFS的设计原则是将大数据分布在大量的节点上,以便并行处理,同时也考虑到了硬件故障的可能,数据...
Hadoop生态系统是大数据处理的核心组成部分,它包含了多个组件,如HDFS(Hadoop Distributed File System)、Spark、Hive、Elasticsearch和Kafka,这些工具共同构建了一个高效、可扩展的数据处理平台。 HDFS是...
Zookeeper是Hadoop生态圈中的协调服务,负责管理集群的配置信息、命名服务、状态同步等,保证分布式环境下的数据一致性。它是Hadoop其他组件如HBase、YARN等进行协调和管理的关键。 Hive是基于Hadoop的数据仓库工具...
【Hadoop生态系统及其版本演化】 Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。它的出现源于互联网行业的快速发展,尤其是搜索引擎和电子商务等领域的数据处理需求。Hadoop以其高效、可扩展和...
### Hadoop生态系统基本介绍 #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个...
### 第1周 Hadoop生态系统及版本演化 #### 日志系统 **日志系统**是互联网企业不可或缺的一部分,它主要用于收集用户的交互数据,并基于这些数据进行分析以提升用户体验、优化产品功能或提供更精准的个性化服务。...
综上所述,Hadoop生态系统通过一系列紧密集成的组件,提供了一套完整的解决方案,使得用户能够在分布式环境下高效处理和分析大规模数据。Hadoop不仅仅是一个单一的技术,它代表了一种全新的数据处理范式,对于大数据...
hadoop 2.7.5 集群搭建 spark 2.2.1 集群搭建,配置scala编译环境 hive on spark 安装 hbase 搭建
8. **Hadoop生态环境**:Hadoop并不只是单一的工具,它还有一系列生态系统组件,如HBase(分布式数据库)、Pig(数据分析工具)、Spark(快速大数据处理框架)、Hive(SQL-like查询工具)等,它们共同构建了强大的大...
它是许多分布式系统的基石,为Hadoop生态系统中的其他组件提供一致性服务。 7. Spark:Spark是大数据处理领域的一个快速、通用且可扩展的计算引擎。它支持批处理、交互式查询(通过Spark SQL)、实时流处理(通过...
4. **Hadoop生态环境**:除了HDFS和MapReduce,Hadoop生态还包括HBase、Hive、Pig、Oozie、Zookeeper等组件。HBase是一个分布式、高性能的NoSQL数据库,Hive提供了类SQL接口用于数据查询,Pig则提供了一种高级语言来...
5. **Hadoop生态环境**:Hadoop生态系统包括YARN(Yet Another Resource Negotiator),用于资源管理和调度;HBase,一个分布式、支持列族的NoSQL数据库;Hive,提供了SQL-like接口查询Hadoop数据;Pig,用于数据...
Hadoop生态系统的组件众多,包括Zookeeper、Hive、Flume和Sqoop等,它们协同工作,提供了大数据处理的完整解决方案。 **第二章 Hadoop** 在安装Hadoop时,首先需要在CentOS7上进行基础配置,包括创建必要的文件夹...
除此之外,书中还会涵盖Hadoop的其他相关组件,如YARN(Yet Another Resource Negotiator)作为MapReduce的资源调度器,以及Hadoop生态环境中的数据导入工具如Sqoop和Flume等。这些组件共同构成了一个完整的Hadoop...