在原有的spark程序中,其中包含hhase,spark等,会出现jar包冲突导致有异常的问题,程序中都是使用maven。
在异常中,包含nosuchmethod的异常错误信息,可以看出是guava版本与hadoop版本不一致导致,Hadoop中使用的是12版本,而es2.3.1默认使用18版本。这样才程序执行的时候使用的是12版本,会导致类中的方法找不到的异常。
解决办法是,es的依赖不使用maven,把es以及依赖搞成一个单独的jar,给程序调用。首先,创建一个单独的maven项目,xml配置文件如下:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<!-- <groupId>Es001</groupId> <artifactId>es-shaded</artifactId> <version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging> -->
<groupId>my.elasticsearch</groupId>
<artifactId>es-shaded</artifactId>
<version>1.0-SNAPSHOT</version>
<name>Es001</name>
<url>http://maven.apache.org</url>
<properties>
<elasticsearch.version>2.3.1</elasticsearch.version>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch</artifactId>
<version>${elasticsearch.version}</version>
</dependency>
<dependency>
<groupId>org.elasticsearch.plugin</groupId>
<artifactId>shield</artifactId>
<version>${elasticsearch.version}</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.4.1</version>
<configuration>
<createDependencyReducedPom>false</createDependencyReducedPom>
</configuration>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<relocations>
<relocation>
<pattern>com.google.guava</pattern>
<shadedPattern>my.elasticsearch.guava</shadedPattern>
</relocation>
<relocation>
<pattern>org.joda</pattern>
<shadedPattern>my.elasticsearch.joda</shadedPattern>
</relocation>
<relocation>
<pattern>com.google.common</pattern>
<shadedPattern>my.elasticsearch.common</shadedPattern>
</relocation>
<relocation>
<pattern>com.google.thirdparty</pattern>
<shadedPattern>my.elasticsearch.thirdparty</shadedPattern>
</relocation>
<relocation>
<pattern>com.fasterxml.jackson</pattern>
<shadedPattern>my.elasticsearch.jackson</shadedPattern>
</relocation>
</relocations>
<transformers>
<transformer
implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer" />
</transformers>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
<repositories>
<repository>
<id>elasticsearch-releases</id>
<url>http://maven.elasticsearch.org/releases</url>
<releases>
<enabled>true</enabled>
<updatePolicy>daily</updatePolicy>
</releases>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
</repositories>
</project>
然后使用eclipse或者命令对项目进行build,执行完后会在对于的本地maven配置的repository中找到该jar,最后在spark程序提交的时候,不需要再项目jar中导入改jar包,而是提交的时候手工执行本地jar就ok,也就是spark-submit执行时,后面--jars 后面加入本地之前弄好的es的jar即可,问题解决。
分享到:
相关推荐
在这个"Kettle使用es、大数据插件jar包.rar"压缩包中,包含的是Kettle针对Elasticsearch(ES)以及大数据处理的相关插件,这些插件使得Kettle能够更好地与大数据环境集成,进行高效的数据操作和分析。 Elastic...
- **数据导入导出**:它允许用户将Hadoop的数据源(如HDFS、HBase、Spark等)直接导入到Elasticsearch,反之亦然,方便进行数据分析和检索。 - **MapReduce支持**:它提供了MapReduce作业的输入/输出格式,使Elastic...
"ELASTICSEARCH-7.9.2.jar"是Elasticsearch的核心库,包含了所有必要的类和方法,用于执行搜索、索引、分析等操作。 ELK(Elasticsearch, Logstash, Kibana)栈是大数据分析的流行组合,其中Logstash负责收集和...
- 删除DC工程与usetag工程中的`ExternalLibraries`中Netty版本为2.5的旧版本包,保留较新版本的包,避免版本冲突导致的问题。 5. **依赖库更新**: - 在安装了HBase的所有节点的`/usr/hdp/current/hbase-client/...
- `lib` 目录下是一系列的jar包,它们包含了Seatunnel的核心库和依赖项,如Spark、Hadoop等,这些库支持了Seatunnel的数据处理能力。 - `plugins` 目录则包含了一些预定义的数据处理插件,如Filter(过滤)、...
- 准备主程序代码包、Spark远程提交服务Jar包和MySQL建表脚本。 - 在MySQL导入数据脚本,建立数据库环境。 - 部署和运行平台主程序。 通过以上步骤,可以构建一个高效且灵活的用户画像管理系统,帮助企业实现...
7. **其他服务**:如Elasticsearch、ClickHouse等,DataX提供相应的writer插件来满足特定场景的数据写入需求。 每个writer插件都包含了一系列配置参数,用户可以根据具体目标系统的特性和需求调整这些参数,以优化...
- **Load(加载)**: 最后,处理后的数据可以被加载到不同的数据存储系统,如Hive、ES、HBase等。 2. **架构特点**: - **模块化设计**:Seatunnel由多个插件组成,每个插件负责特定的功能,用户可以根据需求自由...
如HDFS(Hadoop分布式文件系统)、YARN(资源调度器)、Hive(数据仓库工具)、HBase(NoSQL数据库)、Pig(数据流处理语言)、Zookeeper(分布式协调服务)、Sqoop(数据导入导出工具)、Flume(日志收集系统)、...
这可能涉及到数据库系统,如MySQL或NoSQL存储如HBase,也可能用到专门的搜索引擎存储,如Elasticsearch。 4. **爬虫与更新**:为了获取最新的网页内容,搜索引擎通常包含网络爬虫组件,负责抓取网页、解析HTML并...
8. **集成其他系统**:Nutch不仅可以与Solr或Elasticsearch等搜索引擎集成,也可以与其他数据分析工具如HBase、Spark等配合使用,实现更复杂的业务需求。 9. **学习资源**:Apache Nutch的官方文档、社区论坛以及...
阿里Canal是一款高效、稳定且轻量级的数据库增量复制框架,主要用于实现MySQL数据库的数据实时同步到其他数据存储系统,如Elasticsearch、HBase或RocketMQ等。Canal的主要目标是为大数据分析、实时数据仓库和消息...
实时开发是数栖平台中实现数据资产化的关键组件之一,有助于企业快速响应业务需求变化,及时处理原始数据并进行实时分析计算,最终将处理后的数据存储至诸如Oracle、Elasticsearch、HBase等数据库中,以便后续查询或...