spark成功之后运行例子报错
问题一:
spark.SparkContext: Added JAR file:/home/hadoop-cdh/app/test/sparktest/EmarOlap-0.0.1-SNAPSHOT.jar at http://192.168.5.143:32252/jars/EmarOlap-0.0.1-SNAPSHOT.jar with timestamp 1428464475056
Exception in thread "main" java.lang.VerifyError: class org.apache.hadoop.yarn.proto.YarnProtos$PriorityProto overrides final method getUnknownFields.()Lcom/google/protobuf/UnknownFieldSet;
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:791)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:449)
at java.net.URLClassLoader.access$100(URLClassLoader.java:71)
at java.net.URLClassLoader$1.run(URLClassLoader.java:361)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:423)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:356)
at java.lang.Class.getDeclaredConstructors0(Native Method)
at java.lang.Class.privateGetDeclaredConstructors(Class.java:2404)
at java.lang.Class.getConstructor0(Class.java:2714)
at java.lang.Class.getConstructor(Class.java:1674)
at org.apache.hadoop.yarn.factories.impl.pb.RecordFactoryPBImpl.newRecordInstance(RecordFactoryPBImpl.java:62)
at org.apache.hadoop.yarn.util.Records.newRecord(Records.java:36)
at org.apache.hadoop.yarn.api.records.Priority.newInstance(Priority.java:39)
at org.apache.hadoop.yarn.api.records.Priority.<clinit>(Priority.java:34)
at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<init>(YarnSparkHadoopUtil.scala:101)
at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<clinit>(YarnSparkHadoopUtil.scala)
at org.apache.spark.deploy.yarn.ClientArguments.<init>(ClientArguments.scala:38)
at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:55)
at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:141)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:381)
at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:61)
at com.emar.common.spark.examples.SparkInputFormatExample.main(SparkInputFormatExample.java:31)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
protobuf版本不一致,编译前统一yarn和spark的pb版本,修改spark的pom.xml文件
问题二:
WARN [sparkDriver-akka.actor.default-dispatcher-5] remote.ReliableDeliverySupervisor:
Association with remote system [akka.tcp://sparkExecutor@host127:37972] has failed, address is now gated for [5000] ms. Reason is:
[org.apache.spark.TaskState$; local class incompatible: stream classdesc serialVersionUID = -2913614267616900700, local class serialVersionUID = 746799155515967470].
这是spark的版本不一致,1.3.2不能兼容1.3.0的,spark版本搞得真垃圾
问题三:
spark had a not serializable result
spark1.x的版本,需要将返回的RDD都序列化好,java中就是继承与serializable,否则他默认的序列化程序就不能工作
解决方法,在spark-default中添加
spark.serializer=org.apache.spark.serializer.KryoSerializer
相关推荐
### Spark源码编译流程详解 #### 一、前言 随着大数据技术的快速发展,Apache Spark作为其中的重要一环,其高效的数据处理能力受到了广泛的关注。对于开发者而言,理解Spark的内部实现机制以及如何编译Spark源码是...
在描述中提到,由于使用的Scalatest版本不正确,导致了大约三分之二的报错。Scalatest是一个用于Scala语言的测试框架,它为编写单元测试和集成测试提供了便利。为了修复这个问题,可以将POM文件中的Scalatest依赖...
- **下载与安装**:访问Apache官网下载预编译好的Spark版本,并在指定路径(如`C:\SPARK`)解压缩。 - **环境变量设置**:将Spark的`bin`目录(例如:`C:\SPARK\spark\bin`)添加到系统的`PATH`变量中。 ##### 4. ...
如果使用了不兼容的Scala版本(例如,2.11或更高版本),eclipse可能会报错,指出spark的jar包和scala版本不兼容。这是因为不同版本的Scala可能会导致类型签名的改变,或者API的某些部分可能不再适用,从而引发编译...
CDH 是一个全面的大数据平台,集成了多个开源项目,如 Hadoop、Spark、Hive 等,提供了一整套数据管理解决方案。而 Flink 则是一个强大的流处理框架,擅长实时数据处理和分析。在标题和描述中提到的“cdh6.3.2集成...
- RDD:编译时类型安全,如果操作错误,编译器会报错。 - DataFrame:运行时类型检查,访问不存在的列会导致运行时错误。 - Dataset:编译时类型安全,能够提前发现类型错误。 6. 三者转换: - DataFrame可以从...
描述中提到的"用于解决windows环境下,在eclipse上运行mapreduce/spark等程序报错的众多错误的问题",这表明此压缩包可能是为了解决Windows用户在开发环境中遇到的问题。在Windows上配置Hadoop和运行相关程序时,...
StreamX构建于Flink、Spark等流处理框架之上,提供了一个统一的管理界面,帮助开发者更便捷地进行流应用的开发和运维。它的主要组成部分包括: 1. **StreamX Studio**:这是图形化的流处理工作台,支持基于拖拽的...
at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:56) ... Caused by: java.lang.ClassNotFoundException: ...
此外,Hadoop生态系统还包括许多其他组件,如Hive(用于SQL-like查询大数据)、Pig(高级数据处理语言)、HBase(NoSQL数据库)和Spark(快速、通用的计算引擎)。这些工具与Hadoop紧密集成,共同构建了一个强大的大...
比如在文章中提到的,Hadoop 1.2、HBase 0.95.0和Hive 0.11.0的组合会带来不兼容问题,具体表现为创建关联表时会报错。 在实际使用过程中,如何查找合适的版本对应关系是很多新手遇到的难题。这时候,从官方网站...
如果试图传递错误类型的参数或误读了返回值,mypy会在编译阶段报错,而不是等到运行时才发现问题。 安装`mypy-boto3-emr-1.19.6`很简单,通常通过Python的包管理器pip完成: ```bash pip install mypy-boto3-emr ``...
这样做的好处是,数组的大小可以在运行时根据实际需要进行调整,而不是在编译时就固定下来。例如,在C++中: ```cpp int *arr = new int[size]; // 使用数组后 delete[] arr; ``` 这样,数组的大小可以根据...
此外,它可与许多流行的机器学习框架集成,如Scikit-learn、Spark MLlib和H2O。这使得XGBoost成为数据科学项目中的强大工具。 总之,XGBoost在Windows 10 64位系统的安装涉及环境配置、源代码编译和安装验证。其...
- **分布式系统支持**:XGBoost支持Hadoop和Spark等分布式计算框架,适用于大规模数据处理。 在实际应用中,XGBoost广泛应用于各种机器学习任务,如分类、回归、排名等。例如,你可以使用它来构建信用评分模型、...