`
gaojingsong
  • 浏览: 1182084 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

【HPCC介绍】

    博客分类:
  • HPCC
阅读更多

一、HPCC介绍

HPCC (High-Performance Computing Cluster), also known as DAS (Data Analytics Supercomputer), is an open source, data-intensive computing system platform developed by LexisNexis Risk Solutions. The HPCC platform incorporates a software architecture implemented on commodity computing clusters to provide high-performance, data-parallel processing for applications utilizing big data. The HPCC platform includes system configurations to support both parallel batch data processing (Thor) and high-performance online query applications using indexed data files (Roxie). The HPCC platform also includes a data-centric declarative programming language for parallel data processing called ECL. 

HPCC (High Performance Computing Cluster) 是一个大规模并行处理计算平台,用于解决大数据问题。

HPCC 是一个用来集群服务器并进行大数据分析的系统,HPCC 在 LexisNexis 内部使用多年,这是一个成熟可靠的系统,包含一系列的工具和名为 ECL 的高级编程语言以及数据仓库工具。



 

二、System architecture

The HPCC system architecture includes two distinct cluster processing environments, each of which can be optimized independently for its parallel data processing purpose. The first of these platforms is called a data refinery whose overall purpose is the general processing of massive volumes of raw data of any type for any purpose but typically used for data cleansing and hygiene, extract, transform, load processing of the raw data, record linking and entity resolution, large-scale ad-hoc complex analytics, and creation of keyed data and indexes to support high-performance structured queries and data warehouse applications. The data refinery is also referred to as Thor, a reference to the mythical Norse god of thunder with the large hammer symbolic of crushing large amounts of raw data into useful information. A Thor cluster is similar in its function, execution environment, filesystem, and capabilities to the Google and Hadoop MapReduce platforms.



 

The second of the parallel data processing platforms is called Roxie and functions as a rapid data delivery engine. This platform is designed as an online high-performance structured query and analysis platform or data warehouse delivering the parallel data access processing requirements of online applications through Web services interfaces supporting thousands of simultaneous queries and users with sub-second response times. Roxie utilizes a distributed indexed filesystem to provide parallel processing of queries using an optimized execution environment and filesystem for high-performance online processing. A Roxie cluster is similar in its function and capabilities to Hadoop with HBase and Hive capabilities added, and provides for near real time predictable query latencies. Both Thor and Roxie clusters utilize the ECL programming language for implementing applications, increasing continuity and programmer productivity.

  • 大小: 143.7 KB
  • 大小: 31.8 KB
0
0
分享到:
评论

相关推荐

    HPCC基础配置安装实践教程(个人操作实录为例)

    根据给定的文件信息,我们可以从中提炼出一系列与HPCC(High-Performance ...通过本次实践教程的介绍,初学者可以了解HPCC系统的基本安装与配置方法,并根据具体情况进行相应的调整和优化,以实现高效的并行计算。

    hpcc_user_utils:各种脚本和代码可帮助用户在HPCC上执行各种操作

    本文将详细探讨这些脚本和代码如何助力用户在HPCC环境中更好地工作,并介绍其主要功能和应用场景。 首先,"hpcc_user_utils"中的脚本大部分基于Shell语言编写,Shell是Linux和Unix系统中广泛使用的命令解释器,它...

    HPCC:斯坦福高性能计算中心的公共文件

    4. **文档和指南**:详细介绍了如何在HPCC环境中使用Shell,包括最佳实践、常见问题解答以及错误处理策略。 5. **配置文件**:可能包含HPCC特有的环境设置,如集群配置、调度器参数等,这对于理解系统工作原理和...

    大数据分析的六大工具介绍.docx

    随着大数据时代的到来,选择合适的处理工具变得非常必要,本文将介绍六大最好用的工具,即Hadoop、HPCC、Storm、Spark、Flink和Mahout。 一、Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop...

    最常用大数据分析工具介绍

    包括hadoop,hpcc,Apache Drill,storm,RapidMiner,Pentaho BI等工具的介绍

    大数据分析的六大工具介绍 (2).pdf

    HPCC(High Performance Computing and Communications)是美国实施信息高速公路的计划,该计划的主要目标是开发可扩展的计算系统及相关软件,以支持太位级网络传输性能。HPCC由五部分组成:高性能计算机系统、先进...

    大数据分析的六大工具介绍 (3).docx

    大数据分析六大工具介绍 大数据分析是一个复杂的过程,需要选择合适的工具来处理庞大的数据集。今天,我们将为大家分享六大最好用的工具在大数据处理分析过程中。 一、Hadoop Hadoop 是一个能够对大量数据进行...

    大数据分析的六大工具介绍.pdf

    大数据分析六大工具介绍 大数据分析是指研究大量数据的过程中寻找模式、相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。大数据分析需要使用合适的工具来处理庞大的数据。在本文中,我们...

    大数据分析的六大工具介绍 (3).pdf

    HPCC 计划的实施将耗资百亿美元,其主要目标要达到: * 开发可扩展的计算系统及相关软件,以支持太位级网络传输性能。 * 开发千兆比特网络技术。 * 扩展研究和教育机构及网络连接能力。 Storm Storm 是自由的开源...

    大数据分析的六大工具介绍 (4).pdf

    HPCC 计划由五部分组成:高性能计算机系统、先进软件技术与算法、国家科研与教育网格、基本研究与人类资源、信息基础结构技术和应用。 三、Storm Storm 是自由的开源软件,一个分布式的、容错的实时计算系统。...

    大数据你必需晓得的四大分析工具.docx

    本文将详细介绍四大主流的大数据分析工具,它们分别是RapidMiner、HPCC、Hadoop和Pentaho BI,这些工具各自具有独特的特性和优势,对于数据科学家和IT专业人士来说,了解并熟练运用它们能够极大地提升数据分析效率和...

    ASC15 Preliminary Contest Notifications

    - 其他文件压缩成一个文件(例如:AAAUniversity_BBB.zip),其中至少包含HPCC的输出文件、NAMD的日志文件以及格网化任务的优化源代码和日志文件。 - 提交后,ASC组织方会通过电子邮件确认收到。 #### 五、联系...

    第1章-云计算与大数据基础87.pptx

    《云计算与大数据技术》一书深入浅出地介绍了这两个领域的基础知识。\n\n1.1 云计算技术概述\n\n云计算是一种基于互联网的计算方式,它将计算资源和信息以服务的形式按需提供给用户。这种模式打破了传统计算资源的...

    FANUC 0IC高速高精度加工

    在描述中,作者希望介绍FANUC 0iC MATE型号数控系统的高速高精度加工调试过程,目的是为机床操作者提供帮助。 FANUC 0iC MATE型号的数控系统在高速高精度加工中的知识点主要包括以下几个方面: 1. APC(自动程序...

    2023年软件水平考试网络工程师章节复习第九章.doc

    推动高速网络发展的因素包括HPCC计划,以及ATM(异步转移模式)和SONET(同步光纤网络)等技术,它们提供了高速率的网络底层设施。 6. **互换式多兆位数据服务(SMDS)**:SMDS由Bellcore公司提出,提供高速城域...

    SMT体系结构中的一种推测性循环执行的动态自适应方法

    文中提到的“2014 IEEE International Conference on High Performance Computing and Communications (HPCC)”以及“2014 IEEE 6th International Symposium on Cyberspace Safety and Security (CSS) and 2014 ...

Global site tag (gtag.js) - Google Analytics