`

大数据学习笔记(七)-运行spark脚本【原创】

阅读更多
   在启动了hadoop 和 spark之后,就可以运行spark 脚本环境,在其上可以运行scala脚本。

1. cd $SPARK_HOME/bin
2. master=spark://master.hadoop.zjportdns.gov.cn ./spark-shell
然后就可以运行脚本了
   scala> val a = sc.parallelize(1 to 9, 3)
   a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
   scala> val b = a.map(x => x*2)
   b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1] at map at <console>:26
   scala> a.collect
   res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
   scala> b.collect
   res1: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)


3. 可以对hdfs文件进行分析


然后就可以愉快的进行大数据分析了。
  • 大小: 21.8 KB
  • 大小: 7.6 KB
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    大数据学习笔记.pdf

    第一部分 Spark学习 ....................................................................................................................... 6 第1章 Spark介绍 ..............................................

    大数据学习笔记文档.rar

    《大数据学习笔记文档》 大数据领域是信息技术的热门方向,涵盖了多个关键技术,如Linux、Kafka、Python、Hadoop和Scala等。以下是对这些技术的详细介绍: **Linux**:作为大数据处理的基础平台,Linux因其开源、...

    大数据Linux基础学习笔记

    以下是对"大数据Linux基础学习笔记"的相关知识点的详细说明: 一、Linux简介 Linux是一种自由和开放源代码的类UNIX操作系统,由Linus Torvalds在1991年创建。它提供了一个强大的命令行界面,支持多用户、多任务,且...

    hadoop,spark,linux,机器学习,数据挖掘等大数据全套视频.rar

    标题中的“hadoop,spark,linux,机器学习,数据挖掘等大数据全套视频.rar”表明这是一个包含多方面大数据技术的综合教程资源,涵盖了Hadoop、Spark、Linux、机器学习以及数据挖掘等多个关键领域。这些主题都是现代信息...

    清华大学—学堂在线—高级大数据系统课件笔记.zip

    最后,"机器学习系统"可能涵盖了大数据环境下的机器学习算法和平台,如Mahout、Spark MLlib等。 综合这些内容,这门课程不仅理论与实践并重,而且紧密联系业界实际,为学习者提供了全面理解大数据系统及其应用的...

    vagrant-spark-zeppelin:Vagrant,Apache Spark和Apache Zeppelin VM,带有用于学习Spark的笔记本

    Apache Spark提供的API使得处理大规模数据变得简单,而Apache Zeppelin则提供了直观的界面,便于编写和运行Spark代码,查看结果,以及创建交互式的分析笔记。 总结来说,"vagrant-spark-zeppelin" 是一个精心设计的...

    大数据全套视频2018.zip

    《大数据全套视频2018.zip》是一份包含全面的大数据学习资源的压缩包,适合对大数据技术感兴趣的初学者和进阶者。该压缩包由知名讲师徐培成教授讲解,他曾以同样深入浅出的方式教授Java语言,帮助许多学习者建立了...

    Flink学习笔记.docx

    Flink 学习笔记 Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。Flink 的主要特点是它可以实时处理大规模数据,并且可以与其他大数据处理工具集成,例如 Hadoop、Spark 等...

    Big-Data-em-Saude-no-Brasil:USP通过Coursera提供的在线课程“巴西的健康大数据”中存储的数据和脚本的存储库

    10. **云平台应用**:如果课程深度足够,可能会讲解如何在AWS、Google Cloud或Azure等云平台上部署和运行大数据解决方案。 由于文件列表只给出了"Big-Data-em-Saude-no-Brasil-master",这可能是课程代码仓库的主...

    Java后端学习笔记。包括Linux、maven、git、互联网架构、大数据体系等.zip

    这份"Java后端学习笔记"涵盖了Linux、Maven、Git、互联网架构和大数据体系等多个关键知识点,是提升Java开发者技能的重要资料。 首先,让我们深入了解一下这些主题: 1. **Linux**:作为服务器操作系统,Linux在...

    一个Azure 大数据DataBricks的试验教程

    2. 示例代码:提供完整的脚本供学习者复制和修改。 3. 问答社区:提供讨论区,解答学习者在试验过程中遇到的问题。 4. 资源链接:指向其他相关的Azure服务和大数据工具,以便进一步学习。 六、学习路径 1. 初级阶段...

    大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系...

    大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWorks,Hadoop,Spark,Flink,面试,笔记文档,实战练习,公共脚本,常用Shell脚本,Java,Scala,...

    大数据P-

    大数据P-:这是一个关于大数据处理和分析的主题,可能涉及到P代表的数据处理框架,如Hadoop的MapReduce或Spark的Pandas库。在这个领域,我们通常处理海量数据,这些数据超过了单机系统的处理能力,因此需要分布式...

    autoInstall.zip

    用户可以通过解压这个文件,遵循readme的指导,运行自动化脚本,然后通过提供的Python脚本进行实践,从而快速掌握Spark在Ubuntu环境下的应用。对于初学者,这是一条便捷的学习路径,而对于已经熟悉Spark的用户,它则...

    UCSD_BigData:UCSD 大数据课程的脚本和笔记本存储库

    《UCSD大数据课程:探索与学习笔记》 加州大学圣地亚哥分校(UCSD)在2014年春季开设的大数据课程,以其丰富的教学资源和深入的实践性,为学生提供了一次全面掌握大数据技术的宝贵机会。该课程的核心在于一系列精心...

    Big-Data-Group5:大数据组项目存储库

    在这里,我们可能期待找到与大数据处理和机器学习相关的Python脚本、数据预处理脚本、模型训练代码、Jupyter Notebook文件,以及可能的测试和验证数据。 综上所述,这个项目涵盖了以下几个重要的知识点: 1. **大...

    有道云笔记项目

    根据给定的文件信息,我们可以总结出以下与“有道云笔记项目”相关的知识点: ### 一、有道云笔记项目概述 有道云笔记是一款由网易...通过合理利用有道云笔记的功能,可以在学习和工作中更好地组织信息、提高效率。

    bigdata笔记1

    "bigdata笔记1"可能包含的是对大数据基础知识、主要技术框架及其应用的概述。以下是一些可能涵盖的重要知识点: 1. **大数据定义**:大数据不仅仅是数据的量大,它还包括数据的多样性、速度和价值。大数据的4V特性...

    python073基于大数据反电信诈骗管理系统.zip

    它拥有丰富的库资源,如Pandas用于数据清洗和预处理,Numpy进行数值计算,Scikit-learn进行机器学习模型训练,以及Spark和Hadoop等用于分布式计算。本项目中,Python将被用来编写数据处理和分析的脚本,实现高效的...

Global site tag (gtag.js) - Google Analytics