使用spark访问elasticsearch的数据 - zzm - ITeye博客

`

m635674608

浏览: 5054512 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

明兜3号：部署落地+业务迁移玩转k8s进阶与企业级实践技能（又名：Ku ...
Kubernetes系统常见运维技巧
q328965539：牛掰啊资料收集的很全面
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）
guichou： fluent挂载了/var/lib/kubelet/pods目 ...
kubernetes上部署Fluentd+Elasticsearch+kibana日志收集系统
xu982604405： System.setProperty("java.r ...
jmx rmi 穿越防火墙问题及jmxmp的替代方案
大漠小帆：麻烦问下，“获取每个Item相似性最高的前N个Item”，这个 ...
协同过滤推荐算法在MapReduce与Spark上实现对比

使用spark访问elasticsearch的数据

博客分类：

搜索引擎，爬虫

阅读更多

使用spark访问elasticsearch的数据，前提是spark能访问hive，hive能访问es
http://blog.csdn.net/ggz631047367/article/details/50445832

1.配置

cp elasticsearch-hadoop-2.1.1/dist/elasticsearch-hadoop-2.1.1.jar /usr/local/spark-1.5.2/lib/

2.修改配置文件/usr/local/spark/conf/hive-site.xml,添加

<property>
<name>hive.aux.jars.path</name>
<value>file:///usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar</value>
<description>A comma separated list (with no spaces) of the jar files</description>
</property>

3.配置/usr/local/hive-1.2.1/lib/MySQL-connector-java-5.1.31-bin.jar,在spark-env.sh添加

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar

4.启动

sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=hadoop-master --master spark://10.8.2.100:7077 --jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar

或者

bin/spark-sql –master spark://10.8.2.100:7077 –jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar

5.测试

beeline -u jdbc:hive2://10.8.2.100:10000 (稍等一下执行此命令，报错有可能是服务还没起来)

select count(dtime) from achi_ex limit 10;

注意：–driver-class-path和–jars的区别，使用sbin/start-thriftserver.sh -h查看
如果1中拷贝到所有slave中spark/lib中，后面不用—jars指定jar包

这种方式比直接访问hive中的数据慢一倍左右

http://blog.csdn.net/ggz631047367/article/details/50445790

http://blog.csdn.net/stark_summer/article/details/49743687

分享到：

MQ产品比较-ActiveMQ-RocketMQ | 给dubbo接口添加白名单——dubbo Filter的 ...

2016-04-21 10:34
浏览 1502
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）: 在本项目实战中，我们将探讨如何使用Java编程语言，结合Spark和Hive，将Hive中的数据高效地导入到ElasticSearch（ES）中，并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析： 1. **Hive数据...

elasticsearch-hadoop-8.8.0: - **Spark集成**：Elasticsearch-Hadoop也支持Apache Spark，允许Spark作业直接操作Elasticsearch集群，提升大数据处理效率。 - **Hive和Pig支持**：对于使用Hive和Pig进行大数据处理的用户，Elasticsearch-Hadoop...

Elasticsearch加速SparkSQL查询-李振炜: 具体实现是将数据索引存储在Elasticsearch（ES）中，以实现快速的索引查询。查询详解部分说明了ES如何加速查询的机制。通过为特定列创建索引，可以避免全表扫描，而是直接根据索引读取指定的行。同时，通过实现...

ES与大数据平台集成资料: 2. **数据导出**：反之，Spark可以使用`es.write.format("org.elasticsearch.spark.sql")`从Elasticsearch读取数据，创建DataFrame，为后续分析提供数据源。 3. **实时分析**：结合Spark Streaming，可以实现对流入...

springBoot整合kafka和elasticSearch,实现批量拉取日志以及批量更新到es里: Elasticsearch则是一款强大的分布式搜索引擎，适用于海量数据的快速检索。本项目将详细讲解如何利用SpringBoot整合Kafka和Elasticsearch，实现日志的批量拉取和更新。首先，我们需要在SpringBoot项目中引入相应的...

基于HDFS、ElasticSearch、Spark和TensorFlow的文本分析中台基础架构.pptx: 综上所述，基于 HDFS、ElasticSearch、Spark 和 TensorFlow 的文本分析中台基础架构能够有效地处理和分析大规模文本数据，不仅提高了数据处理的效率，也为各种应用场景提供了灵活多样的技术支持。随着技术的不断进步...

田毅-多种场景下spark和不同数据源组合来快速开发应用: 之前，Spark已经支持了包括JDBC（MySQL、PostgreSQL）、HadoopFS等数据源，而在DataSources API发布后，更多的数据源如Parquet、JSON、Orc、Avro、CSV、RedShift、MongoDB、Cassandra、ElasticSearch等得到了支持。...

基于Spark大数据处理的电影推荐系统设计与实现.pdf: 1. **系统初始化**：该模块的任务是使用SparkSQL将初始数据加载到MongoDB和Elasticsearch数据库中，为系统的运行准备数据环境。 2. **离线推荐**：该模块利用Azkaban调度统计请求，并使用MongoDB业务数据库进行数据...

ElasticSearch集成.rar: 这种集成方式通常涉及到创建DataFrame或Dataset，然后使用`saveAsNewAPIHadoopFile`或者`ElasticsearchSpark.save`方法将数据写入Elasticsearch。同时，也可以通过`Spark Source`从Elasticsearch读取数据进行进一步...

elasticsearch-5.5.0.tar.gz: 通过 Hadoop 的 MapReduce 或 Spark 进行批量处理后，Elasticsearch 可以用于实时查询这些处理后的数据，提供快速的分析结果。在 "elasticsearch-5.5.0" 压缩包中，包含了以下主要组件： 1. bin：包含启动和管理 ...

Elasticsearch技术解析与实战 ,朱林(完整板): 1. **类型（Type）**：在早期版本中，Elasticsearch使用类型来组织文档，但在7.x版本后已被废弃，所有文档都直接存入索引中。 2. **索引（Index）**：索引类似于数据库中的表，用于存储具有相同结构的文档。 3. **...

大数据Spark技术分享数据科学与企业工程共28页.pdf: ### 大数据Spark技术在数据科学与企业工程中的应用 #### 一、引言随着互联网的迅猛发展，数据量呈爆炸式增长，这为企业带来了前所未有的机遇与挑战。为了应对这一挑战，许多公司开始利用大数据技术和工具进行数据...

Spark + MongoDB实现探花交友项目.zip: 在本项目中，"Spark + MongoDB 实现探花交友项目"是一个使用Java技术栈构建的社交网络应用。这个项目结合了大数据处理框架Apache Spark和NoSQL数据库MongoDB，旨在为用户提供一个高效、可扩展的交友平台。以下是这个...

spark search: Apache Lucene是一个开源的信息检索库，自1999年由Doug Cutting创建以来，已成为众多搜索引擎和产品的基础，包括Apache Solr和ElasticSearch。Lucene以其高性能的索引和搜索能力、多语言支持的语言分析器、可插拔的...

300页PPT讲述Spark DevOps进阶技巧: - 集成日志管理和监控工具，例如ELK（Elasticsearch, Logstash, Kibana）堆栈，用于数据流和任务执行的实时监控和分析。 - 使用云服务平台如Amazon Web Services (AWS), Google Cloud Platform (GCP) 或 Microsoft ...

CCTC 2016 Elastic曾勇：Elasticsearch & Bigdata: Hadoop生态系统虽然功能强大，但Elasticsearch能够实现快速数据索引和实时的全文搜索，这对于需要即时数据访问和分析的应用场景特别有用。此外，Elasticsearch的易用性、与可视化工具的友好集成，以及对开发者友好...

最全的Spark基础知识解答.pdf: 分布式搜索搜索引擎如Elasticsearch，是基于Lucene构建的，用于全文检索和数据分析，具有实时性、分布式、高可扩展性等特点。 Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并...

SparkExamples:学习如何将 Spark 与其他大数据工具（如 ES、Cassandra、Kafka 等）集成的小 Spark 示例。: 4. **读写操作**：通过 Spark DataFrame API 实现数据的读写，例如 `DataFrame df = spark.read.format("org.elasticsearch.spark.sql").option("es.resource", "index/type").load();` 从 ES 读取数据，`df.write....

spark-connect:Predictiveworks 的一个子项目，提供对 Cassandra、Elasticsearch、HBase、MongoDB、Parquet、JDBC 数据库和来自 Apache Spark 的其他数据源的通用访问: Apache Spark 的公共访问层支持从多个 NoSQL 和 JDBC 数据源检索原始数据。以下大数据源支持读取请求：卡桑德拉弹性搜索HBase MongoDB 实木复合地板此外，该项目还为与分析相关的数据源提供了越来越多的连接器： ...

Elasticsearch+Fluentd+Kafka搭建日志系统: 可以使用`curl`命令查询Elasticsearch的索引，或者直接在浏览器访问Kibana界面来检查数据。 **总结** 通过EFK搭建的日志系统，可以实现高效、可扩展的日志管理和分析。Fluentd的轻量级设计使其适合处理大规模日志流...

Global site tag (gtag.js) - Google Analytics