CCA175考试心得
1.考试内容,总计有10题,全部为实践操作题
1>前五题分别为(sqoop,hive)
1).sqoop-import
2).sqoop-export,
3).hive创建表,并且将已经存在于hdfs上的表导入到新建表中
4).hive创建avro类型的表
5).hive创建一个分区表,并且导入数据
2>6-9题为spark的python 和scala解析数据题目,考试模式为哪种原始的代码题空题目,不需要考试者从头到尾的完成所有代码,只需要填充那些缺失的代码部分,基本内容为加载hdfs上的数据,解析数据,过滤数据,排序,join数据,将处理后的数据存储到hdfs上
3>第10题,一个排错题,提供一个有错误的脚步去调试让脚步能够正常运行,
我考的这题是一个hive的avro表,查询时报错,修改该表的schame让查询能够正常运行(仅供大家参考)
4>小结:从考试内容来看基本都是基础知识的考察,没有考察那些技巧性的内容和比较深奥的、偏门的知识(基本将培训的习题做做熟练基本能够通过考试)
2.考试环境
1>考试环境可以用一个“烂”子来形容,字体小的需要贴着屏幕看,鼠标移动有较长的延迟,执行的速度一般
2>考试的环境是一远程的linux环境,全部英文,没有中文
3>考试中可以查看hive,sqoop等相关技术文档,在页面中已经明确的给出链接地址,直接点击即可
4>操作时"open in Terminal" 即可
3.备考心得
1>建议大家将培训中的习题做做熟练
2>考试中未涉及 impala 和flume的内容
3>熟练掌握sqoop的导入导出,指定分隔符,指定文件存储类型
4>熟练掌握hive的ddl,创建数据库,创建外部表,创建表时指定分隔符,指定文件存储格式,指定文件位置,创建分区表,向分区表中导入数据
5>熟练掌握scala,python的基本语法
6>熟练掌握spark的rdd的相关基本操作,map,filter,join.mapValues,keyBy,sortByKey,textFile,saveAsTextFile等操作
7>熟练掌握count,collect,take等操作
8>能够熟练的解析文本(难度以习题难度为准,我初始准备时考试准备的难度偏难(解析复杂的文本,解析复杂的xml,解析复杂的json,而且去背各种import类路径和工具方法)但是从考试内容来看完全没有必要,)
9>考试时请做好时间安排,两个小时的时间很紧张,多半不够用,一旦在考试中出现各种exception多半会崩溃
4.为了节省考试时间,我建议如下方式操作
1>不建议打开太多的"open in Terminal",最多不要超过3个,太多切换来切换去会晕。
2>由于为实际操作题目,执行过的代码基本不能在找回,建议使用系统中自带的"Emacs"编辑器,编辑代码,存储代码,在此编辑器中编写好代码后在复制到命令行中运行,如果运行出错可以在进行修改。(建议在练习时熟练掌握emacs的常规使用方式,特别是“复制”和“粘帖”操作)
3>使用"emacs"需要设置字体,系统的默认字体肉眼基本无法辨识,建议修改编辑器的字体大小
4>命令行的 字体也可以根据需要进行设置(我未设置,直接使用默认设置)
5>在考试过程中要充分的使用复制和粘帖操作(如相关的路径信息,帐号信息,数据库表名,字段名称),以免自己的输入产生错误导致运行出错,而且可以节省时间
5.关于考试成绩
1>考试完毕后大概30分钟后会收到邮件告知考试成绩
2>我考了两次第一次由于环境的各种不熟悉和考试模式的不熟悉只做成功了5题,作为第5题时已经花去1个半小时,多半由于自己的输入失误导致出现各种错误,又由于怕代码丢失打开太多的窗口,所以在这里建议大家熟练使用emas编辑器,使用复制粘贴操作,不要打开太多的窗口,第二次我吸取的第一次的教训大大提高了考试速度10题全部答对,顺利通过了考试。
以上内容为个人一点小小经验仅供参考,祝大家考试通过
相关推荐
1. Cloudera公司提供的CCA175和CCA131课程为开发者和工程师准备,旨在帮助他们应对大数据挑战。Cloudera作为一家专注于大数据的公司,其培训课程不仅针对当前成功所需的技能,还帮助学员面对未来的挑战。 2. 课程...
官方的学习资料,目标是通过此手册提供的知识点通过CCA Spark and Hadoop Developer (CCA175) 的考试。下载文档的朋友,我附带VM虚拟机,下载后请加群1141169,向我索要VM。
CCA131考试是Cloudera认证的管理员考试,即Cloudera Certified Administrator for Apache Hadoop。考生需要在预配置的Cloudera企业集群上完成8至12个基于性能的实际操作任务。考试时长为120分钟,通过分数为70%,...
对于降维方法中,曲线成分分析(CCA)的实现
MATLAB的cca算法实现,输入数据集,输出系数矩阵
【大数据认证】Cloudera CCA131考试大纲涵盖了大数据管理员所需的关键技能,旨在确保考生具备管理和维护基于Cloudera的企业级Hadoop集群的能力。以下是大纲中的主要知识点: 1. **安装**: - **Cloudera Manager**...
深度Canonical Correlation Analysis(DeepCCA)是一种机器学习技术,它扩展了传统的Canonical Correlation Analysis(CCA)方法,通过引入深度神经网络来处理高维和非线性数据的复杂关系。CCA是统计学中用于探索两...
CCA分析简明教程,详细介绍了如何用CANOCO进行CCA分析
**CCA 4.5排序软件详解** CCA 4.5(Canonical Correspondence Analysis)是一款专为生态学研究设计的排序软件,它在环境因子分析领域具有广泛的应用。该软件能够帮助用户对复杂的数据集进行多因素分析,尤其适用于...
CCA(Canonical Correlation Analysis,典型相关分析)是一种统计方法,用于探索两个变量集之间的线性关系,找出它们之间最大关联性的成分。在本压缩包"cca matlab代码.rar"中,包含了一个名为"cca matlab代码.m"的...
ARM 机密计算(Confidential Compute Architecture,简称CCA)安全模型是ARMv9架构中引入的一个新特性,旨在提供更为强大的系统安全性和高效的安全能力。这个安全模型是为那些对ARM架构有深厚兴趣,尤其是中高级...
**CCA(Canonical Correlation Analysis)** 是一种统计分析方法,用于找出两个或多个变量集之间的最大相关性。在机器学习和数据挖掘中,它被广泛应用于发现不同数据集间的潜在关系,尤其是在多模态数据融合、特征提取...
在标题“wchy_cca.zip_CCA_CCA降维_cca代码_典型相关分析”中,我们可以推测这是一个关于CCA的项目压缩包,包含了一些用于实现CCA降维的源代码。降维是数据分析中的关键步骤,它能帮助我们减少数据的复杂性,提高...
### 核PCA和CCA知识点详解 #### 一、核PCA(Kernel Principal Component Analysis) **核PCA** 是一种扩展自传统主成分分析(PCA)的方法,它通过非线性映射将原始数据转换到一个更高维的空间(特征空间),在这个...
在无线通信领域,CCA(Clear Channel Assessment)信道检测是一个至关重要的环节,它涉及到网络的接入、传输效率和冲突避免。CCA的主要任务是确定无线信道是否处于空闲状态,以便设备可以安全地发送数据而不会干扰...
**典型相关分析(Canonical Correlation Analysis,简称CCA)** 典型相关分析是一种统计学方法,用于研究两个变量集之间的关系,其目标是找到这两组变量之间的最大相关性。它可以帮助我们理解不同变量集间的结构和...
在无线通信领域,CC430CCA是一个关键概念,它涉及到CC430微控制器和CC1101射频收发器的载波侦听(Carrier Sense)功能。本文将深入探讨这两个组件以及载波侦听在无线通信系统中的作用。 **CC430 微控制器** CC430...
**典型相关分析(Canonical Correlation Analysis,简称CCA)**是一种统计学方法,主要应用于多变量数据分析,特别是当我们要研究两个不同变量集之间的关联性时。它通过寻找两个变量集之间的最大相关性,来达到特征...
《CCA在人脸识别中的应用——基于MATLAB的CCA代码解析》 在现代计算机视觉领域,人脸识别是一项重要的技术,广泛应用于安全监控、社交媒体和个人身份验证。在这个领域中,经典的统计方法如Canonical Correlation ...
Customer Care Accelerator (CCA) 是一个专为提升客户服务体验而设计的软件解决方案。它通过集成各种工具和功能,帮助企业快速响应客户的需求,提高服务质量和效率。以下是对CCA安装文件和指导手册的详细解读: 1. ...