在启动了hadoop 和 spark之后,就可以运行spark 脚本环境,在其上可以运行scala脚本。
1. cd $SPARK_HOME/bin
2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell
然后就可以运行脚本了
scala> val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
scala> val b = a.map(x => x*2)
b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at <console>:26
scala> a.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
scala> b.collect
res1: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)
3. 可以对hdfs文件进行分析
然后就可以愉快的进行大数据分析了。
- 大小: 21.8 KB
- 大小: 7.6 KB
分享到:
相关推荐
第一部分 Spark学习 ....................................................................................................................... 6 第1章 Spark介绍 ..............................................
《大数据学习笔记文档》 大数据领域是信息技术的热门方向,涵盖了多个关键技术,如Linux、Kafka、Python、Hadoop和Scala等。以下是对这些技术的详细介绍: **Linux**:作为大数据处理的基础平台,Linux因其开源、...
以下是对"大数据Linux基础学习笔记"的相关知识点的详细说明: 一、Linux简介 Linux是一种自由和开放源代码的类UNIX操作系统,由Linus Torvalds在1991年创建。它提供了一个强大的命令行界面,支持多用户、多任务,且...
标题中的“hadoop,spark,linux,机器学习,数据挖掘等大数据全套视频.rar”表明这是一个包含多方面大数据技术的综合教程资源,涵盖了Hadoop、Spark、Linux、机器学习以及数据挖掘等多个关键领域。这些主题都是现代信息...
最后,"机器学习系统"可能涵盖了大数据环境下的机器学习算法和平台,如Mahout、Spark MLlib等。 综合这些内容,这门课程不仅理论与实践并重,而且紧密联系业界实际,为学习者提供了全面理解大数据系统及其应用的...
Apache Spark提供的API使得处理大规模数据变得简单,而Apache Zeppelin则提供了直观的界面,便于编写和运行Spark代码,查看结果,以及创建交互式的分析笔记。 总结来说,"vagrant-spark-zeppelin" 是一个精心设计的...
《大数据全套视频2018.zip》是一份包含全面的大数据学习资源的压缩包,适合对大数据技术感兴趣的初学者和进阶者。该压缩包由知名讲师徐培成教授讲解,他曾以同样深入浅出的方式教授Java语言,帮助许多学习者建立了...
Flink 学习笔记 Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。Flink 的主要特点是它可以实时处理大规模数据,并且可以与其他大数据处理工具集成,例如 Hadoop、Spark 等...
10. **云平台应用**:如果课程深度足够,可能会讲解如何在AWS、Google Cloud或Azure等云平台上部署和运行大数据解决方案。 由于文件列表只给出了"Big-Data-em-Saude-no-Brasil-master",这可能是课程代码仓库的主...
这份"Java后端学习笔记"涵盖了Linux、Maven、Git、互联网架构和大数据体系等多个关键知识点,是提升Java开发者技能的重要资料。 首先,让我们深入了解一下这些主题: 1. **Linux**:作为服务器操作系统,Linux在...
2. 示例代码:提供完整的脚本供学习者复制和修改。 3. 问答社区:提供讨论区,解答学习者在试验过程中遇到的问题。 4. 资源链接:指向其他相关的Azure服务和大数据工具,以便进一步学习。 六、学习路径 1. 初级阶段...
大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWorks,Hadoop,Spark,Flink,面试,笔记文档,实战练习,公共脚本,常用Shell脚本,Java,Scala,...
大数据P-:这是一个关于大数据处理和分析的主题,可能涉及到P代表的数据处理框架,如Hadoop的MapReduce或Spark的Pandas库。在这个领域,我们通常处理海量数据,这些数据超过了单机系统的处理能力,因此需要分布式...
用户可以通过解压这个文件,遵循readme的指导,运行自动化脚本,然后通过提供的Python脚本进行实践,从而快速掌握Spark在Ubuntu环境下的应用。对于初学者,这是一条便捷的学习路径,而对于已经熟悉Spark的用户,它则...
《UCSD大数据课程:探索与学习笔记》 加州大学圣地亚哥分校(UCSD)在2014年春季开设的大数据课程,以其丰富的教学资源和深入的实践性,为学生提供了一次全面掌握大数据技术的宝贵机会。该课程的核心在于一系列精心...
大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWorks,Hadoop,Spark,Flink,面试,笔记文档,实战练习,公共脚本,常用
在这里,我们可能期待找到与大数据处理和机器学习相关的Python脚本、数据预处理脚本、模型训练代码、Jupyter Notebook文件,以及可能的测试和验证数据。 综上所述,这个项目涵盖了以下几个重要的知识点: 1. **大...
根据给定的文件信息,我们可以总结出以下与“有道云笔记项目”相关的知识点: ### 一、有道云笔记项目概述 有道云笔记是一款由网易...通过合理利用有道云笔记的功能,可以在学习和工作中更好地组织信息、提高效率。
"bigdata笔记1"可能包含的是对大数据基础知识、主要技术框架及其应用的概述。以下是一些可能涵盖的重要知识点: 1. **大数据定义**:大数据不仅仅是数据的量大,它还包括数据的多样性、速度和价值。大数据的4V特性...