CCA175考试心得

wsppstwo

浏览: 14457 次
性别:
来自: 北京

最近访客更多访客>>

明兜3号

czmmiao

luojianbing

huhanyu

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据

大数据 hadoop Cloudera

CCA175考试心得

1.考试内容,总计有10题，全部为实践操作题

1>前五题分别为(sqoop,hive)

1).sqoop-import

2).sqoop-export,

3).hive创建表，并且将已经存在于hdfs上的表导入到新建表中

4).hive创建avro类型的表

5).hive创建一个分区表，并且导入数据

2>6-9题为spark的python 和scala解析数据题目,考试模式为哪种原始的代码题空题目，不需要考试者从头到尾的完成所有代码，只需要填充那些缺失的代码部分，基本内容为加载hdfs上的数据，解析数据，过滤数据，排序，join数据，将处理后的数据存储到hdfs上

3>第10题，一个排错题，提供一个有错误的脚步去调试让脚步能够正常运行，

我考的这题是一个hive的avro表，查询时报错，修改该表的schame让查询能够正常运行(仅供大家参考)

4>小结:从考试内容来看基本都是基础知识的考察，没有考察那些技巧性的内容和比较深奥的、偏门的知识（基本将培训的习题做做熟练基本能够通过考试）

2.考试环境

1>考试环境可以用一个“烂”子来形容，字体小的需要贴着屏幕看，鼠标移动有较长的延迟，执行的速度一般

2>考试的环境是一远程的linux环境，全部英文，没有中文

3>考试中可以查看hive,sqoop等相关技术文档，在页面中已经明确的给出链接地址，直接点击即可

4>操作时"open in Terminal" 即可

3.备考心得

1>建议大家将培训中的习题做做熟练

2>考试中未涉及 impala 和flume的内容

3>熟练掌握sqoop的导入导出，指定分隔符，指定文件存储类型

4>熟练掌握hive的ddl,创建数据库，创建外部表，创建表时指定分隔符，指定文件存储格式，指定文件位置，创建分区表，向分区表中导入数据

5>熟练掌握scala,python的基本语法

6>熟练掌握spark的rdd的相关基本操作,map,filter,join.mapValues,keyBy,sortByKey,textFile,saveAsTextFile等操作

7>熟练掌握count,collect,take等操作

8>能够熟练的解析文本（难度以习题难度为准，我初始准备时考试准备的难度偏难（解析复杂的文本，解析复杂的xml,解析复杂的json,而且去背各种import类路径和工具方法）但是从考试内容来看完全没有必要,）

9>考试时请做好时间安排，两个小时的时间很紧张，多半不够用，一旦在考试中出现各种exception多半会崩溃

4.为了节省考试时间，我建议如下方式操作

1>不建议打开太多的"open in Terminal",最多不要超过3个，太多切换来切换去会晕。

2>由于为实际操作题目，执行过的代码基本不能在找回，建议使用系统中自带的"Emacs"编辑器,编辑代码，存储代码,在此编辑器中编写好代码后在复制到命令行中运行，如果运行出错可以在进行修改。（建议在练习时熟练掌握emacs的常规使用方式，特别是“复制”和“粘帖”操作）

3>使用"emacs"需要设置字体，系统的默认字体肉眼基本无法辨识，建议修改编辑器的字体大小

4>命令行的字体也可以根据需要进行设置(我未设置，直接使用默认设置)

5>在考试过程中要充分的使用复制和粘帖操作(如相关的路径信息，帐号信息，数据库表名，字段名称)，以免自己的输入产生错误导致运行出错,而且可以节省时间

5.关于考试成绩

1>考试完毕后大概30分钟后会收到邮件告知考试成绩

2>我考了两次第一次由于环境的各种不熟悉和考试模式的不熟悉只做成功了5题，作为第5题时已经花去1个半小时，多半由于自己的输入失误导致出现各种错误，又由于怕代码丢失打开太多的窗口，所以在这里建议大家熟练使用emas编辑器，使用复制粘贴操作，不要打开太多的窗口,第二次我吸取的第一次的教训大大提高了考试速度10题全部答对，顺利通过了考试。

以上内容为个人一点小小经验仅供参考，祝大家考试通过