使用spark访问elasticsearch的数据,前提是spark能访问hive,hive能访问es
http://blog.csdn.net/ggz631047367/article/details/50445832
1.配置
cp elasticsearch-hadoop-2.1.1/dist/elasticsearch-hadoop-2.1.1.jar /usr/local/spark-1.5.2/lib/
2.修改配置文件/usr/local/spark/conf/hive-site.xml,添加
<property>
<name>hive.aux.jars.path</name>
<value>file:///usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar</value>
<description>A comma separated list (with no spaces) of the jar files</description>
</property>
3.配置/usr/local/hive-1.2.1/lib/MySQL-connector-java-5.1.31-bin.jar,在spark-env.sh添加
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar
4.启动
sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=hadoop-master --master spark://10.8.2.100:7077 --jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar
或者
bin/spark-sql –master spark://10.8.2.100:7077 –jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar
5.测试
beeline -u jdbc:hive2://10.8.2.100:10000 (稍等一下执行此命令,报错有可能是服务还没起来)
select count(dtime) from achi_ex limit 10;
注意:–driver-class-path和–jars的区别,使用sbin/start-thriftserver.sh -h查看
如果1中拷贝到所有slave中spark/lib中,后面不用—jars指定jar包
这种方式比直接访问hive中的数据慢一倍左右
http://blog.csdn.net/ggz631047367/article/details/50445832
1.配置
cp elasticsearch-hadoop-2.1.1/dist/elasticsearch-hadoop-2.1.1.jar /usr/local/spark-1.5.2/lib/
2.修改配置文件/usr/local/spark/conf/hive-site.xml,添加
<property>
<name>hive.aux.jars.path</name>
<value>file:///usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar</value>
<description>A comma separated list (with no spaces) of the jar files</description>
</property>
3.配置/usr/local/hive-1.2.1/lib/MySQL-connector-java-5.1.31-bin.jar,在spark-env.sh添加
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/hive-1.2.1/lib/mysql-connector-java-5.1.31-bin.jar
4.启动
sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=hadoop-master --master spark://10.8.2.100:7077 --jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar
或者
bin/spark-sql –master spark://10.8.2.100:7077 –jars /usr/local/spark-1.5.2/lib/elasticsearch-hadoop-2.1.1.jar
5.测试
beeline -u jdbc:hive2://10.8.2.100:10000 (稍等一下执行此命令,报错有可能是服务还没起来)
select count(dtime) from achi_ex limit 10;
注意:–driver-class-path和–jars的区别,使用sbin/start-thriftserver.sh -h查看
如果1中拷贝到所有slave中spark/lib中,后面不用—jars指定jar包
这种方式比直接访问hive中的数据慢一倍左右
http://blog.csdn.net/ggz631047367/article/details/50445790
http://blog.csdn.net/stark_summer/article/details/49743687
相关推荐
在本项目实战中,我们将探讨如何使用Java编程语言,结合Spark和Hive,将Hive中的数据高效地导入到ElasticSearch(ES)中,并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析: 1. **Hive数据...
- **Spark集成**:Elasticsearch-Hadoop也支持Apache Spark,允许Spark作业直接操作Elasticsearch集群,提升大数据处理效率。 - **Hive和Pig支持**:对于使用Hive和Pig进行大数据处理的用户,Elasticsearch-Hadoop...
具体实现是将数据索引存储在Elasticsearch(ES)中,以实现快速的索引查询。 查询详解部分说明了ES如何加速查询的机制。通过为特定列创建索引,可以避免全表扫描,而是直接根据索引读取指定的行。同时,通过实现...
2. **数据导出**:反之,Spark可以使用`es.write.format("org.elasticsearch.spark.sql")`从Elasticsearch读取数据,创建DataFrame,为后续分析提供数据源。 3. **实时分析**:结合Spark Streaming,可以实现对流入...
Elasticsearch则是一款强大的分布式搜索引擎,适用于海量数据的快速检索。本项目将详细讲解如何利用SpringBoot整合Kafka和Elasticsearch,实现日志的批量拉取和更新。 首先,我们需要在SpringBoot项目中引入相应的...
综上所述,基于 HDFS、ElasticSearch、Spark 和 TensorFlow 的文本分析中台基础架构能够有效地处理和分析大规模文本数据,不仅提高了数据处理的效率,也为各种应用场景提供了灵活多样的技术支持。随着技术的不断进步...
之前,Spark已经支持了包括JDBC(MySQL、PostgreSQL)、HadoopFS等数据源,而在DataSources API发布后,更多的数据源如Parquet、JSON、Orc、Avro、CSV、RedShift、MongoDB、Cassandra、ElasticSearch等得到了支持。...
1. **系统初始化**:该模块的任务是使用SparkSQL将初始数据加载到MongoDB和Elasticsearch数据库中,为系统的运行准备数据环境。 2. **离线推荐**:该模块利用Azkaban调度统计请求,并使用MongoDB业务数据库进行数据...
这种集成方式通常涉及到创建DataFrame或Dataset,然后使用`saveAsNewAPIHadoopFile`或者`ElasticsearchSpark.save`方法将数据写入Elasticsearch。同时,也可以通过`Spark Source`从Elasticsearch读取数据进行进一步...
通过 Hadoop 的 MapReduce 或 Spark 进行批量处理后,Elasticsearch 可以用于实时查询这些处理后的数据,提供快速的分析结果。 在 "elasticsearch-5.5.0" 压缩包中,包含了以下主要组件: 1. bin:包含启动和管理 ...
1. **类型(Type)**:在早期版本中,Elasticsearch使用类型来组织文档,但在7.x版本后已被废弃,所有文档都直接存入索引中。 2. **索引(Index)**:索引类似于数据库中的表,用于存储具有相同结构的文档。 3. **...
### 大数据Spark技术在数据科学与企业工程中的应用 #### 一、引言 随着互联网的迅猛发展,数据量呈爆炸式增长,这为企业带来了前所未有的机遇与挑战。为了应对这一挑战,许多公司开始利用大数据技术和工具进行数据...
Apache Lucene是一个开源的信息检索库,自1999年由Doug Cutting创建以来,已成为众多搜索引擎和产品的基础,包括Apache Solr和ElasticSearch。Lucene以其高性能的索引和搜索能力、多语言支持的语言分析器、可插拔的...
- 集成日志管理和监控工具,例如ELK(Elasticsearch, Logstash, Kibana)堆栈,用于数据流和任务执行的实时监控和分析。 - 使用云服务平台如Amazon Web Services (AWS), Google Cloud Platform (GCP) 或 Microsoft ...
Hadoop生态系统虽然功能强大,但Elasticsearch能够实现快速数据索引和实时的全文搜索,这对于需要即时数据访问和分析的应用场景特别有用。 此外,Elasticsearch的易用性、与可视化工具的友好集成,以及对开发者友好...
分布式搜索搜索引擎如Elasticsearch,是基于Lucene构建的,用于全文检索和数据分析,具有实时性、分布式、高可扩展性等特点。 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并...
4. **读写操作**:通过 Spark DataFrame API 实现数据的读写,例如 `DataFrame df = spark.read.format("org.elasticsearch.spark.sql").option("es.resource", "index/type").load();` 从 ES 读取数据,`df.write....
Apache Spark 的公共访问层支持从多个 NoSQL 和 JDBC 数据源检索原始数据。 以下大数据源支持读取请求: 卡桑德拉弹性搜索HBase MongoDB 实木复合地板此外,该项目还为与分析相关的数据源提供了越来越多的连接器: ...
可以使用`curl`命令查询Elasticsearch的索引,或者直接在浏览器访问Kibana界面来检查数据。 **总结** 通过EFK搭建的日志系统,可以实现高效、可扩展的日志管理和分析。Fluentd的轻量级设计使其适合处理大规模日志流...
例如,可以使用 *** 或 GitHub 上开源的 Spark 应用程序包,来支持 Elasticsearch 或 MaxCompute 等特定的数据源。 在数据源方面,Elasticsearch 作为一个支持全文搜索的分布式系统,它提供了与 Spark SQL 的集成...