Shark本地安装
1.下载scala
wget
http://www.scala-lang.org/files/archive/scala-2.9.3.tgz
最新有2.10.2.tgz文件
tar xvfz scala-2.9.3.tgz
2.下载shark and hive压缩包
wget
http://spark-project.org/download/shark-0.7.0-hadoop1-bin.tgz (cdh3)
tar xvfz shark-0.7.0-*-bin.tgz
3. 配置环境变量
cd shark-0.7.0/conf
cp shark-env.sh.template shark-env.sh
vi shark-env.sh
export HIVE_HOME=/path/to/hive-0.9.0-bin
export SCALA_HOME=/path/to/scala-2.9.3
4.测试数据
CREATE TABLE src(key INT, value STRING);
LOAD DATA LOCAL INPATH '${env:HIVE_HOME}/examples/files/kv1.txt' INTO TABLE src;
SELECT COUNT(1) FROM src;
OK
500
Time taken: 2.149 seconds
没有了hive中的mr,速度快了不少
CREATE TABLE src_cached AS SELECT * FROM SRC;
SELECT COUNT(1) FROM src_cached;
安装过程中可能出现的问题及解决
1.CREATE TABLE src(key INT, value STRING);
FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.ipc.RPC$VersionMismatch Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version
mismatch. (client = 61, server = 63))
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
ERROR exec.Task: FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.ipc.RPC$VersionMismatch Protocol
org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch. (client = 61, server = 63))
org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Got exception: org.apache.hadoop.ipc.RPC$VersionMismatch Protocol
org.apache.hadoop.hdfs.protocol.ClientProtocol version mismatch. (client = 61, server = 63))
at org.apache.hadoop.hive.ql.metadata.Hive.createTable(Hive.java:544)
at org.apache.hadoop.hive.ql.exec.DDLTask.createTable(DDLTask.java:3313)
at org.apache.hadoop.hive.ql.exec.DDLTask.execute(DDLTask.java:242)
at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:134)
at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:57)
at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:1312)
at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1104)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:937)
at shark.SharkCliDriver.processCmd(SharkCliDriver.scala:288)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:406)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:341)
at shark.SharkCliDriver$.main(SharkCliDriver.scala:203)
at shark.SharkCliDriver.main(SharkCliDriver.scala)
reason:Hadoop版本与SHARK的Hadoop core jar包版本不一致引起的。
解决:将${HADOOP_HOME}/hadoop-core-*.jar copy 到${SHARK_HOME}/lib_managed/jars/org.apache.hadoop/hadoop-core/目录下面,rm原来的hadoop-core-*.jar
重新进入Shark
2.出现java.lang.NoClassDefFoundError
/app/hadoop/shark/shark-0.7.0/lib_managed/jars/org.apache.hadoop/hadoop-core/
java.lang.NoClassDefFoundError: org/apache/hadoop/thirdparty/guava/common/collect/LinkedListMultimap
at org.apache.hadoop.hdfs.SocketCache.<init>(SocketCache.java:48)
at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:253)
at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:220)
at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:89)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1611)
at org.apache.hadoop.fs.FileSystem.access$300(FileSystem.java:68)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:1645)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1627)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:254)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:123)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:238)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:183)
at org.apache.hadoop.hive.metastore.Warehouse.getFs(Warehouse.java:104)
at org.apache.hadoop.hive.metastore.Warehouse.getDnsPath(Warehouse.java:136)
at org.apache.hadoop.hive.metastore.Warehouse.getWhRoot(Warehouse.java:151)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.getDefaultDatabasePath(HiveMetaStore.java:475)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB_core(HiveMetaStore.java:353)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:371)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:278)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.<init>(HiveMetaStore.java:248)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(HiveMetaStoreClient.java:114)
at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:2092)
at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:2102)
at org.apache.hadoop.hive.ql.metadata.Hive.createTable(Hive.java:538)
at org.apache.hadoop.hive.ql.exec.DDLTask.createTable(DDLTask.java:3313)
at org.apache.hadoop.hive.ql.exec.DDLTask.execute(DDLTask.java:242)
at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:134)
at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:57)
at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:1312)
at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1104)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:937)
at shark.SharkCliDriver.processCmd(SharkCliDriver.scala:288)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:406)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:341)
at shark.SharkCliDriver$.main(SharkCliDriver.scala:203)
at shark.SharkCliDriver.main(SharkCliDriver.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.thirdparty.guava.common.collect.LinkedListMultimap
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:307)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
... 36 more
reason:CDH版本的缺少一个第三方包guava-*.jar
解决:建一个目录${SHARK_HOME}/lib_managed/jars/org.apache.hadoop/thirdparty,拷贝${HADOOP_HOME}/lib/guava-r09-jarjar.jar到这个目录
重新进入Shark
3.show tables出现问题
Failed with exception java.io.IOException:java.io.IOException: Cannot create an instance of InputFormat class org.apache.hadoop.mapred.TextInputFormat as specified in
mapredWork!
reason:缺少hadoop-lzo-*.jar引起的
解决:建一个目录${SHARK_HOME}/lib_managed/jars/org.apache.hadoop/lib, 拷贝${HADOOP_HOME}/lib/hadoop-lzo-*.jar到这个目录
重新进入Shark
4.SELECT count(1) FROM src_cached出现问题
spark.SparkException: Job failed: ShuffleMapTask(6, 0) failed: ExceptionFailure(java.lang.NoSuchMethodError: sun.misc.Unsafe.copyMemory(Ljava/lang/Object;JLjava/lang/Object;JJ)
V)at spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:642)
at spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:640)
at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:60)
at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
at spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:640)
at spark.scheduler.DAGScheduler.handleTaskCompletion(DAGScheduler.scala:601)
at spark.scheduler.DAGScheduler.processEvent(DAGScheduler.scala:300)
at spark.scheduler.DAGScheduler.spark$scheduler$DAGScheduler$$run(DAGScheduler.scala:364)
at spark.scheduler.DAGScheduler$$anon$1.run(DAGScheduler.scala:107)
FAILED: Execution Error, return code -101 from shark.execution.SparkTask
reason:java1.6版本低,需要安装jdk7.
解决:安装jdk7, JAVA_HOME指向新的JDK7,问题解决
tar xvfz jdk-7u25-linux-x64.tar.gz -C /usr/java/
export JAVA_HOME=/usr/java/jdk1.7.0_25
export CLASSPATH=/usr/java/jdk1.7.0_25/lib
重新进入Shark
分享到:
相关推荐
在使用"Shark"字体时,设计师需要注意版权问题。某些字体可能受版权保护,未经许可商业使用可能会引起法律纠纷。因此,选择开源或者已购买商业授权的字体是很重要的。此外,考虑到兼容性,设计师应确保所选字体能在...
"1`.rar_shark_鲨鱼问题" 提供的压缩包文件包含了与"鲨鱼问题"相关的MATLAB代码,这可能是一个特定的数学模型或者算法实现。让我们深入探讨一下这个主题。 首先,"shark"在这里很可能指的是一个数学问题或者模拟...
**Shark 体系结构概述** Shark 是一个用于大规模数据处理和分析的系统,它在Hadoop ...对Shark的深入理解,包括其核心类结构和模块功能,有助于开发人员优化查询性能,解决运行时问题,以及更好地利用集群资源。
- **性能问题**:在处理大规模或复杂流程时,可能存在一定的性能瓶颈。 - **社区支持有限**:相比于其他流行的工作流引擎,Shark的社区活跃度相对较低,获取帮助和支持可能较为困难。 #### 4. 改进探讨 ##### 4.1 ...
2. **控制系统设计**:`shark.m`可能包含了针对该非线性模型的控制算法,如PID控制、滑模控制、鲁棒控制等,用于实现航行器的定位、定向和稳定。 3. **仿真实现**:MATLAB提供了强大的仿真工具箱,如Simulink,可能...
Shark恒的破解教程是非常良心的,从无到有,一步一个脚印带领你去深入破解技术,这个破解教程不仅教会你如何破解,更教会你为什么这样破解
3. **规则引擎**:在Shark中,可能包含一个内置的规则引擎,用于处理流程中的决策逻辑。这可能基于某种规则表示语言(如Drools),通过定义和执行规则来影响流程的走向。 4. **用户界面**:Shark的用户界面部分提供...
从描述中我们可以推测,"Shark" 可能是一款针对计算机用户或IT专业人员的工具,可能是性能分析器、网络监控工具或者数据处理软件等。标签 "shark" 确认了我们的假设,即这个软件与 "Shark" 这个名称相关。 在提供的...
Shark利用Hive的查询解析和执行计划,同时优化了内存管理,使得交互式数据分析成为可能。Shark 1.1-2作为其一个重要版本,它的源代码对于研究分布式计算和SQL查询优化具有重要意义。 二、Shark与Spark的关系 Shark...
"lv.n3o.shark-1.rar"这个文件名可能表示的是Shark for Root的安装包,用户需要使用合适的解压工具将其解压后,才能安装到安卓设备上。在安装和使用过程中,用户应遵循安全最佳实践,避免泄露个人敏感信息,并时刻...
### Shark 开发文档知识点概述 #### 一、Shark 工作流引擎介绍 - **核心定位**:Shark 工作流引擎是整个工作流系统的核心组件,负责执行和管理各类工作流任务。 - **服务接口**:该引擎提供五大关键接口: - 流程...
Shark工作流支持异常处理机制,当任务执行过程中出现问题,可以设定回滚策略或异常处理函数。此外,版本管理功能允许你在不中断现有流程的情况下,对工作流模型进行更新和优化。 ### 6. **API与集成** Shark工作流...
**C++机器学习库Shark 4.0详解** Shark是一个开源的C++机器学习库,专为高效和灵活的统计建模而设计。它提供了多种机器学习算法,包括监督学习、无监督学习和半监督学习。在4.0版本中,Shark库已经经过了充分的优化...
shark恒破解教程
Shark是一个可能的业务流程管理系统,它允许开发者管理、跟踪以及执行工作流程。本文档主要关注两个关键方面:刷新工作列表和获取工作列表。 ### 1. 刷新工作列表 #### 1.1. 获取工作项 在Shark的开发环境中,...
在cmdbuild社区中,"Shark"可能是一个图形用户界面(GUI)的增强版或者一个数据分析工具,用于提供更友好的用户体验或是更强大的数据分析功能。具体的功能和用途需要查看该版本的详细文档或源代码来进一步了解。 **四...
在提供的压缩包中,"modules"目录很可能包含了Shark 1.0项目的各个模块。这些模块可能包括核心引擎、数据存储、用户界面以及其他扩展功能。每个模块都是一段独立的源代码,通过它们,我们可以逐层剖析Shark的工作...
shark恒破解教程两季大全共20集,最全最强大的脱壳破解教程 此教程为电子书版