`
sealbird
  • 浏览: 584532 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

hadoop生态环境

阅读更多
1、Redhat linux下fluentd+fluentd 实现桥接 http://www.it165.net/os/html/201209/3499.html
2、日志收集系统 Fluentd http://www.linuxdiyf.com/viewarticle.php?id=371318

3、
  3-1、SaikuSaiku是一个模块化的分析套件,它提供了一个RESTful服务器,基于JackRabbit的工作区管理,OAuth安全管理和基于JSON或XML的数据通信。其目标是让你在应用程序中嵌入数据分析尽可能的简单。它还提供一个基于jQuery开发的前台来方便安装和运行(http://www.open-open.com/open305825.htm)
  3-2、Saiku是一个模块化的开源分析套件,它提供轻量级的OLAP(联机分析处理),并且可嵌入、可扩展、可配置(http://www.oschina.net/p/saiku)


4 运维工具:http://www.opstool.com/category/35

5 Transwarp Data Hub(简称TDH)是国内首个全面支持Spark和Hadoop2的一站式大数据平台
   http://www.transwarp.io/product.html
6\activemq 很好的参考资料
   http://shensy.iteye.com/blog/1752529


7\ hbase rowkey 设计(三维有序) 
http://ronxin999.blog.163.com/blog/static/4221792020130109202973?suggestedreading

8\ hadoop-lzo
https://github.com/twitter/hadoop-lzo/releases
https://github.com/google/snappy

9\Hadoop/Hbase的Snappy安装 .

http://blog.csdn.net/lixucpf/article/details/18314409


10\关于major compact
Here is some help for this command:
          Run major compaction on passed table or pass a region row
          to major compact an individual region. To compact a single
          column family within a region specify the region name
          followed by the column family name.
          Examples:
          Compact all regions in a table:
          hbase> major_compact 't1'
          Compact an entire region:
          hbase> major_compact 'r1'
          Compact a single column family within a region:
          hbase> major_compact 'r1', 'c1'
          Compact a single column family within a table:
          hbase> major_compact 't1', 'c1'



土木工程网

11\分词器
   11.1 ansj


/////////////////////////////////////
爬虫地址
http://blog.chinaunix.net/uid-22414998-id-3774291.html

hadoop2.0相关
1、安装配置 http://www.kankanews.com/ICkengine/archives/86515.shtml

solr 与hadoop
1\solr4.4+hadoop2.1.0beta整合http://www.kankanews.com/ICkengine/archives/42064.shtml
深入剖析SolrCloud(四)solrcloud 与replication  http://www.blogjava.net/wangxinsh55/archive/2012/07/04/382220.html
http://wiki.apache.org/solr/SolrCloud

1\分词
https://github.com/ansjsun/ansj_seg/

2\导数进入solr
http://wiki.apache.org/solr/DataImportHandler#Configuration_in_data-config.xml
3\jvm 优化
利用Arena Allocation避免HBase触发Full GC http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation
4\
https://github.com/NGDATA/hbase-indexer/wiki/Requirements
https://github.com/NGDATA/hbase-indexer/wiki/Installation
分享到:
评论

相关推荐

    Hadoop生态环境部署手册_V1.0.doc

    Hadoop生态环境部署手册_V1.0.doc

    Hadoop生态环境(一).pdf

    【Hadoop生态环境(一).pdf】的概要分析 Hadoop生态环境是一个复杂而庞大的系统,其核心在于处理和存储大规模数据。这篇文档主要探讨了Hadoop生态中的几个关键组件,特别是分布式文件系统和分布式编程模型。 1. **...

    Hadoop生态环境(一).docx

    【Hadoop生态环境概述】 Hadoop生态系统是一个庞大的开源框架集合,旨在处理和存储大量数据。它最初是为了支持Hadoop Distributed File System (HDFS) 和 MapReduce编程模型而建立的,但随着时间的发展,该生态已经...

    hadoop生态圈各种环境

    里面有tomcat,impala,hadoop,ftp,es。。。。。。。

    hadoop生态

    大数据实施部署

    hadoop生态系统搭建

    标题《hadoop生态系统搭建》所涉及的知识点主要包括Hadoop集群的搭建、基于Hive的离线分析平台配置、基于Storm的实时数据分析架构搭建,以及SolrCloud和HBase在搜索架构中的应用和整合。 首先,Hadoop生态系统的...

    Apache Hadoop和Hadoop生态系统.pdf

    HDFS是Hadoop生态中的分布式文件系统,它允许数据在多台廉价的商用服务器上进行冗余存储,以确保高可用性和容错性。HDFS的设计原则是将大数据分布在大量的节点上,以便并行处理,同时也考虑到了硬件故障的可能,数据...

    HADOOP生态系统.docx

    Hadoop生态系统是大数据处理的核心组成部分,它包含了多个组件,如HDFS(Hadoop Distributed File System)、Spark、Hive、Elasticsearch和Kafka,这些工具共同构建了一个高效、可扩展的数据处理平台。 HDFS是...

    最新Hadoop生态圈开发学习资料——尚硅谷

    Zookeeper是Hadoop生态圈中的协调服务,负责管理集群的配置信息、命名服务、状态同步等,保证分布式环境下的数据一致性。它是Hadoop其他组件如HBase、YARN等进行协调和管理的关键。 Hive是基于Hadoop的数据仓库工具...

    Hadoop生态系统及其版本演化.doc

    【Hadoop生态系统及其版本演化】 Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。它的出现源于互联网行业的快速发展,尤其是搜索引擎和电子商务等领域的数据处理需求。Hadoop以其高效、可扩展和...

    Hadoop生态系统基本介绍(60张幻灯片,包含大量图).pptx

    ### Hadoop生态系统基本介绍 #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个...

    第1周 Hadoop生态系统以及版本演化

    ### 第1周 Hadoop生态系统及版本演化 #### 日志系统 **日志系统**是互联网企业不可或缺的一部分,它主要用于收集用户的交互数据,并基于这些数据进行分析以提升用户体验、优化产品功能或提供更精准的个性化服务。...

    Hadoop生态系统学习

    综上所述,Hadoop生态系统通过一系列紧密集成的组件,提供了一套完整的解决方案,使得用户能够在分布式环境下高效处理和分析大规模数据。Hadoop不仅仅是一个单一的技术,它代表了一种全新的数据处理范式,对于大数据...

    hadoop 生态圈集群搭建

    hadoop 2.7.5 集群搭建 spark 2.2.1 集群搭建,配置scala编译环境 hive on spark 安装 hbase 搭建

    hadoop-2.7.4.tar.gz

    8. **Hadoop生态环境**:Hadoop并不只是单一的工具,它还有一系列生态系统组件,如HBase(分布式数据库)、Pig(数据分析工具)、Spark(快速大数据处理框架)、Hive(SQL-like查询工具)等,它们共同构建了强大的大...

    hadoop大数据生态圈组件

    它是许多分布式系统的基石,为Hadoop生态系统中的其他组件提供一致性服务。 7. Spark:Spark是大数据处理领域的一个快速、通用且可扩展的计算引擎。它支持批处理、交互式查询(通过Spark SQL)、实时流处理(通过...

    hadoop权威指南的源码

    4. **Hadoop生态环境**:除了HDFS和MapReduce,Hadoop生态还包括HBase、Hive、Pig、Oozie、Zookeeper等组件。HBase是一个分布式、高性能的NoSQL数据库,Hive提供了类SQL接口用于数据查询,Pig则提供了一种高级语言来...

    传智播客hadoop资料文档和笔记

    5. **Hadoop生态环境**:Hadoop生态系统包括YARN(Yet Another Resource Negotiator),用于资源管理和调度;HBase,一个分布式、支持列族的NoSQL数据库;Hive,提供了SQL-like接口查询Hadoop数据;Pig,用于数据...

    hadoop大数据生态圈工具配置与应用.pdf

    Hadoop生态系统的组件众多,包括Zookeeper、Hive、Flume和Sqoop等,它们协同工作,提供了大数据处理的完整解决方案。 **第二章 Hadoop** 在安装Hadoop时,首先需要在CentOS7上进行基础配置,包括创建必要的文件夹...

    Hadoop权威指南(中文版-带目录索引)

    除此之外,书中还会涵盖Hadoop的其他相关组件,如YARN(Yet Another Resource Negotiator)作为MapReduce的资源调度器,以及Hadoop生态环境中的数据导入工具如Sqoop和Flume等。这些组件共同构成了一个完整的Hadoop...

Global site tag (gtag.js) - Google Analytics