`
m635674608
  • 浏览: 5043569 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

使用spark访问elasticsearch的数据

 
阅读更多
使用spark访问elasticsearch的数据,前提是spark能访问hive,hive能访问es
http://blog.csdn.net/ggz631047367/article/details/50445832

1.配置

cp elasticsearch-hadoop-2.1.1/dist/elasticsearch-hadoop-2.1.1.jar /usr/local/spark-1.5.2/lib/

2.修改配置文件/usr/local/spark/conf/hive-site.xml,添加

<property>
  <name>hive.aux.jars.path</name>
  <value>file:///usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar</value>
  <description>A comma separated list (with no spaces) of the jar files</description>
</property>


3.配置/usr/local/hive-1.2.1/lib/MySQL-connector-java-5.1.31-bin.jar,在spark-env.sh添加

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar

4.启动

sbin/start-thriftserver.sh   --hiveconf hive.server2.thrift.port=10000  --hiveconf hive.server2.thrift.bind.host=hadoop-master     --master spark://10.8.2.100:7077  --jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar


或者

bin/spark-sql –master spark://10.8.2.100:7077 –jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar

5.测试

beeline -u jdbc:hive2://10.8.2.100:10000 (稍等一下执行此命令,报错有可能是服务还没起来)

select count(dtime) from achi_ex limit 10;

注意:–driver-class-path和–jars的区别,使用sbin/start-thriftserver.sh -h查看
如果1中拷贝到所有slave中spark/lib中,后面不用—jars指定jar包

这种方式比直接访问hive中的数据慢一倍左右

 

http://blog.csdn.net/ggz631047367/article/details/50445790

http://blog.csdn.net/stark_summer/article/details/49743687

分享到:
评论

相关推荐

    项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)

    在本项目实战中,我们将探讨如何使用Java编程语言,结合Spark和Hive,将Hive中的数据高效地导入到ElasticSearch(ES)中,并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析: 1. **Hive数据...

    elasticsearch-hadoop-8.8.0

    - **Spark集成**:Elasticsearch-Hadoop也支持Apache Spark,允许Spark作业直接操作Elasticsearch集群,提升大数据处理效率。 - **Hive和Pig支持**:对于使用Hive和Pig进行大数据处理的用户,Elasticsearch-Hadoop...

    Elasticsearch加速SparkSQL查询-李振炜

    具体实现是将数据索引存储在Elasticsearch(ES)中,以实现快速的索引查询。 查询详解部分说明了ES如何加速查询的机制。通过为特定列创建索引,可以避免全表扫描,而是直接根据索引读取指定的行。同时,通过实现...

    ES与大数据平台集成资料

    2. **数据导出**:反之,Spark可以使用`es.write.format("org.elasticsearch.spark.sql")`从Elasticsearch读取数据,创建DataFrame,为后续分析提供数据源。 3. **实时分析**:结合Spark Streaming,可以实现对流入...

    springBoot整合kafka和elasticSearch,实现批量拉取日志以及批量更新到es里

    Elasticsearch则是一款强大的分布式搜索引擎,适用于海量数据的快速检索。本项目将详细讲解如何利用SpringBoot整合Kafka和Elasticsearch,实现日志的批量拉取和更新。 首先,我们需要在SpringBoot项目中引入相应的...

    基于HDFS、ElasticSearch、Spark和TensorFlow的文本分析中台基础架构.pptx

    综上所述,基于 HDFS、ElasticSearch、Spark 和 TensorFlow 的文本分析中台基础架构能够有效地处理和分析大规模文本数据,不仅提高了数据处理的效率,也为各种应用场景提供了灵活多样的技术支持。随着技术的不断进步...

    田毅-多种场景下spark和不同数据源组合来快速开发应用

    之前,Spark已经支持了包括JDBC(MySQL、PostgreSQL)、HadoopFS等数据源,而在DataSources API发布后,更多的数据源如Parquet、JSON、Orc、Avro、CSV、RedShift、MongoDB、Cassandra、ElasticSearch等得到了支持。...

    基于Spark大数据处理的电影推荐系统设计与实现.pdf

    1. **系统初始化**:该模块的任务是使用SparkSQL将初始数据加载到MongoDB和Elasticsearch数据库中,为系统的运行准备数据环境。 2. **离线推荐**:该模块利用Azkaban调度统计请求,并使用MongoDB业务数据库进行数据...

    ElasticSearch集成.rar

    这种集成方式通常涉及到创建DataFrame或Dataset,然后使用`saveAsNewAPIHadoopFile`或者`ElasticsearchSpark.save`方法将数据写入Elasticsearch。同时,也可以通过`Spark Source`从Elasticsearch读取数据进行进一步...

    elasticsearch-5.5.0.tar.gz

    通过 Hadoop 的 MapReduce 或 Spark 进行批量处理后,Elasticsearch 可以用于实时查询这些处理后的数据,提供快速的分析结果。 在 "elasticsearch-5.5.0" 压缩包中,包含了以下主要组件: 1. bin:包含启动和管理 ...

    Elasticsearch技术解析与实战 ,朱林(完整板)

    1. **类型(Type)**:在早期版本中,Elasticsearch使用类型来组织文档,但在7.x版本后已被废弃,所有文档都直接存入索引中。 2. **索引(Index)**:索引类似于数据库中的表,用于存储具有相同结构的文档。 3. **...

    大数据Spark技术分享 数据科学与企业工程 共28页.pdf

    ### 大数据Spark技术在数据科学与企业工程中的应用 #### 一、引言 随着互联网的迅猛发展,数据量呈爆炸式增长,这为企业带来了前所未有的机遇与挑战。为了应对这一挑战,许多公司开始利用大数据技术和工具进行数据...

    spark search

    Apache Lucene是一个开源的信息检索库,自1999年由Doug Cutting创建以来,已成为众多搜索引擎和产品的基础,包括Apache Solr和ElasticSearch。Lucene以其高性能的索引和搜索能力、多语言支持的语言分析器、可插拔的...

    300页PPT讲述Spark DevOps进阶技巧

    - 集成日志管理和监控工具,例如ELK(Elasticsearch, Logstash, Kibana)堆栈,用于数据流和任务执行的实时监控和分析。 - 使用云服务平台如Amazon Web Services (AWS), Google Cloud Platform (GCP) 或 Microsoft ...

    CCTC 2016 Elastic曾勇:Elasticsearch & Bigdata

    Hadoop生态系统虽然功能强大,但Elasticsearch能够实现快速数据索引和实时的全文搜索,这对于需要即时数据访问和分析的应用场景特别有用。 此外,Elasticsearch的易用性、与可视化工具的友好集成,以及对开发者友好...

    最全的Spark基础知识解答.pdf

    分布式搜索搜索引擎如Elasticsearch,是基于Lucene构建的,用于全文检索和数据分析,具有实时性、分布式、高可扩展性等特点。 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并...

    SparkExamples:学习如何将 Spark 与其他大数据工具(如 ES、Cassandra、Kafka 等)集成的小 Spark 示例。

    4. **读写操作**:通过 Spark DataFrame API 实现数据的读写,例如 `DataFrame df = spark.read.format("org.elasticsearch.spark.sql").option("es.resource", "index/type").load();` 从 ES 读取数据,`df.write....

    spark-connect:Predictiveworks 的一个子项目,提供对 Cassandra、Elasticsearch、HBase、MongoDB、Parquet、JDBC 数据库和来自 Apache Spark 的其他数据源的通用访问

    Apache Spark 的公共访问层支持从多个 NoSQL 和 JDBC 数据源检索原始数据。 以下大数据源支持读取请求: 卡桑德拉弹性搜索HBase MongoDB 实木复合地板此外,该项目还为与分析相关的数据源提供了越来越多的连接器: ...

    Elasticsearch+Fluentd+Kafka搭建日志系统

    可以使用`curl`命令查询Elasticsearch的索引,或者直接在浏览器访问Kibana界面来检查数据。 **总结** 通过EFK搭建的日志系统,可以实现高效、可扩展的日志管理和分析。Fluentd的轻量级设计使其适合处理大规模日志流...

    SparkSQl实践与优化

    例如,可以使用 *** 或 GitHub 上开源的 Spark 应用程序包,来支持 Elasticsearch 或 MaxCompute 等特定的数据源。 在数据源方面,Elasticsearch 作为一个支持全文搜索的分布式系统,它提供了与 Spark SQL 的集成...

Global site tag (gtag.js) - Google Analytics