2012年7月一次会议中,中国联通研究院副院长黄文良介绍:
联通Hadoop系统的后台是178台基于英特尔至强5600处理器的两路刀片服务器,每台服务器配备了14TB存储容量。此外,系统还有3台NameNode节点服务器、入库服务节点服务器24台、Zookeeper节点服务器7台、集群监控节点1台和Web查询应用服务节点20台。这些也都是IA架构的x86服务器。
我们也试过用Hadoop的开源版本,但是确实在性能上不如英特尔的Hadoop发行版,无论是监控能力还是稳定性都有很大区别。
您还没有登录,请您登录后再发表评论
在中国联通的案例中,Hadoop作为一种开源技术,被首次应用于电信行业的数据处理之中,解决了运营商在大数据时代的诸多难题。 #### 二、背景与挑战 ##### 2.1 移动互联网流量激增 随着3G网络的发展,中国联通拥有...
Hadoop的核心组成部分包括HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce(一种大规模数据集的并行运算框架)。此外,为了更好地管理和处理数据,Hadoop生态系统还包括了一系列工具和技术,如...
利用Hadoop、Spark等分布式计算框架,联通能够快速处理大规模数据,为后续的人工智能应用提供坚实支撑。 二、人工智能的应用 1. 预测分析:联通大数据平台利用机器学习算法,如线性回归、决策树、神经网络等,对...
Hadoop的设计旨在简化大规模数据集的处理,使开发者无需关注底层硬件的复杂性。 - **Hadoop的核心组件**: - **Hadoop Distributed File System (HDFS)**:提供高吞吐量的数据访问,适用于大型数据集的分布式存储...
分平台整合则考虑了不同的计算和存储需求,例如Hadoop平台适合大规模存储和简单计算,Oracle更适合复杂计算和高效查询,实时流处理则强调数据处理的即时性。 数据模型设计是数据仓库建设的另一个核心环节,它涉及到...
- **大数据分析**:Hadoop 可以用于处理来自不同来源的大规模数据,比如社交网络、日志文件等,从而提取有价值的信息。 - **搜索引擎**:搜索引擎需要处理大量的网页信息,Hadoop 提供了有效的工具来索引和搜索...
2. **大数据发展历程**:从Bigdata 1.0的海量数据处理,到Bigdata 2.0的Hadoop生态成熟,再到Bigdata 3.0的多元化和技术栈复杂化,中国联通的平台体现了这一演变过程,强调技术的简单化和专业化。 3. **技术趋势**...
10. **大数据平台**:如Hadoop和Spark等,提供了大规模数据处理的能力。联通这些平台,可以整合来自多种源的数据,进行大数据分析。 通过理解并有效地联通这些BI数据结构,企业可以构建出强大的数据分析系统,为...
其中,Hadoop用于大规模数据的存储和分析,HBase作为NoSQL数据库处理非结构化数据,而MySQL和Redis分别处理结构化数据和作为缓存系统使用。 其次,联通公司使用了多种机器学习算法来进行用户行为和兴趣建模。通过...
他参与了两个联通大数据项目和一个网络爬虫项目,涉及实时数据分析处理和大规模数据采集。 在第一个联通大数据项目——移动终端上网数据实时分析处理系统中,开发环境包括IDEA、Eclipse、Maven、JDK,系统架构由...
- **流量分布**:大规模视频网站涉及多个地区的不同运营商,如北京-电信、北京-联通等。 - **业务需求**:需要了解不同区域的带宽使用情况,以便合理分配资源。 - **带宽流向分析**:识别哪些用户群或服务消耗了...
2. 大数据分析:使用Hadoop、Spark等分布式计算框架对大规模数据进行处理,实现高效计算。 3. 机器学习:利用各种监督、无监督及半监督学习算法(如线性回归、决策树、随机森林、支持向量机、神经网络等)建立预测或...
江苏移动则通过企业版Hadoop平台,提升了详单数据处理能力,降低了查询延迟,同时提供了大规模数据的存储和分析能力。 华为FusionInsight解决方案不仅包括大数据平台本身,还配套了数据洞察平台Miner和数据服务平台...
例如,Hadoop作为分布式计算框架,可以处理PB级别的数据,通过MapReduce进行大规模数据处理,而不需要像传统BI那样将数据移动到中心节点。 大数据分析与传统BI分析的主要区别在于,大数据分析支持结构化和非结构化...
1. 分布式计算:通过分布式数据平台,如Hadoop,将计算资源推向数据,避免大规模数据移动,提高处理效率。 2. 混合分析能力:支持结构化和非结构化数据的分析,满足不同业务需求。 3. 流式分析:处理实时或近实时...
大数据平台是现代企业,尤其是电信运营商如上海联通,应对海量数据挑战的关键基础设施。在规划大数据平台时,首要目标是确保其具备强大的扩展性,以适应不断增长的数据量。这包括纵向扩展(提升单个节点的处理能力)...
此外,Hadoop生态系统还包括Hive(用于数据仓库)、Pig(高级数据分析)、HBase(NoSQL数据库)和Zookeeper(分布式协调服务),这些工具共同构建了一个强大的大数据处理平台。 总的来说,Hadoop是一个革命性的工具...
在技术层面,大数据处理依赖于能够处理大规模数据的分布式计算框架,如Hadoop、Spark等。这些技术允许数据以分而治之的方式进行处理,确保系统具有良好的扩展性和可用性,即使在数据量不断增加的情况下也能保持高效...
相关推荐
在中国联通的案例中,Hadoop作为一种开源技术,被首次应用于电信行业的数据处理之中,解决了运营商在大数据时代的诸多难题。 #### 二、背景与挑战 ##### 2.1 移动互联网流量激增 随着3G网络的发展,中国联通拥有...
Hadoop的核心组成部分包括HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce(一种大规模数据集的并行运算框架)。此外,为了更好地管理和处理数据,Hadoop生态系统还包括了一系列工具和技术,如...
利用Hadoop、Spark等分布式计算框架,联通能够快速处理大规模数据,为后续的人工智能应用提供坚实支撑。 二、人工智能的应用 1. 预测分析:联通大数据平台利用机器学习算法,如线性回归、决策树、神经网络等,对...
Hadoop的设计旨在简化大规模数据集的处理,使开发者无需关注底层硬件的复杂性。 - **Hadoop的核心组件**: - **Hadoop Distributed File System (HDFS)**:提供高吞吐量的数据访问,适用于大型数据集的分布式存储...
分平台整合则考虑了不同的计算和存储需求,例如Hadoop平台适合大规模存储和简单计算,Oracle更适合复杂计算和高效查询,实时流处理则强调数据处理的即时性。 数据模型设计是数据仓库建设的另一个核心环节,它涉及到...
- **大数据分析**:Hadoop 可以用于处理来自不同来源的大规模数据,比如社交网络、日志文件等,从而提取有价值的信息。 - **搜索引擎**:搜索引擎需要处理大量的网页信息,Hadoop 提供了有效的工具来索引和搜索...
2. **大数据发展历程**:从Bigdata 1.0的海量数据处理,到Bigdata 2.0的Hadoop生态成熟,再到Bigdata 3.0的多元化和技术栈复杂化,中国联通的平台体现了这一演变过程,强调技术的简单化和专业化。 3. **技术趋势**...
10. **大数据平台**:如Hadoop和Spark等,提供了大规模数据处理的能力。联通这些平台,可以整合来自多种源的数据,进行大数据分析。 通过理解并有效地联通这些BI数据结构,企业可以构建出强大的数据分析系统,为...
其中,Hadoop用于大规模数据的存储和分析,HBase作为NoSQL数据库处理非结构化数据,而MySQL和Redis分别处理结构化数据和作为缓存系统使用。 其次,联通公司使用了多种机器学习算法来进行用户行为和兴趣建模。通过...
他参与了两个联通大数据项目和一个网络爬虫项目,涉及实时数据分析处理和大规模数据采集。 在第一个联通大数据项目——移动终端上网数据实时分析处理系统中,开发环境包括IDEA、Eclipse、Maven、JDK,系统架构由...
- **流量分布**:大规模视频网站涉及多个地区的不同运营商,如北京-电信、北京-联通等。 - **业务需求**:需要了解不同区域的带宽使用情况,以便合理分配资源。 - **带宽流向分析**:识别哪些用户群或服务消耗了...
2. 大数据分析:使用Hadoop、Spark等分布式计算框架对大规模数据进行处理,实现高效计算。 3. 机器学习:利用各种监督、无监督及半监督学习算法(如线性回归、决策树、随机森林、支持向量机、神经网络等)建立预测或...
江苏移动则通过企业版Hadoop平台,提升了详单数据处理能力,降低了查询延迟,同时提供了大规模数据的存储和分析能力。 华为FusionInsight解决方案不仅包括大数据平台本身,还配套了数据洞察平台Miner和数据服务平台...
例如,Hadoop作为分布式计算框架,可以处理PB级别的数据,通过MapReduce进行大规模数据处理,而不需要像传统BI那样将数据移动到中心节点。 大数据分析与传统BI分析的主要区别在于,大数据分析支持结构化和非结构化...
1. 分布式计算:通过分布式数据平台,如Hadoop,将计算资源推向数据,避免大规模数据移动,提高处理效率。 2. 混合分析能力:支持结构化和非结构化数据的分析,满足不同业务需求。 3. 流式分析:处理实时或近实时...
大数据平台是现代企业,尤其是电信运营商如上海联通,应对海量数据挑战的关键基础设施。在规划大数据平台时,首要目标是确保其具备强大的扩展性,以适应不断增长的数据量。这包括纵向扩展(提升单个节点的处理能力)...
此外,Hadoop生态系统还包括Hive(用于数据仓库)、Pig(高级数据分析)、HBase(NoSQL数据库)和Zookeeper(分布式协调服务),这些工具共同构建了一个强大的大数据处理平台。 总的来说,Hadoop是一个革命性的工具...
在技术层面,大数据处理依赖于能够处理大规模数据的分布式计算框架,如Hadoop、Spark等。这些技术允许数据以分而治之的方式进行处理,确保系统具有良好的扩展性和可用性,即使在数据量不断增加的情况下也能保持高效...