`
qindongliang1922
  • 浏览: 2183723 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117527
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59896
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71300
社区版块
存档分类
最新评论

开源大数据索引项目hive-solr

阅读更多

github地址:https://github.com/qindongliang/hive-solr
欢迎大家fork和使用

关于这个项目的介绍,请参考散仙前面的文章:
http://qindongliang.iteye.com/blog/2283862

最新更新:
(1)添加了对solrcloud集群的支持
(2)修复了在反序列时对于hive中null列和空值的处理bug
(3)优化了在构建索引时对于null值和空值的忽略

一些测试:

数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G

索引总耗时:约15分钟

索引后体积:每个shard约6G,共约18G

Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上

批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度

solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G

CPU:24核,注意大文本分词字段非常耗cpu

solr的jvm参数调整:
(1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间
(2)调小NewRatio区占比,增大新生代的内存空间
(3)调大永久代MaxPermSize内存至256M
(4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多
其他参数还是默认配置

solr服务端配置:
(1)关闭自动commit
(2)设置ramBufferSizeMB为1000 ,约等1G
(3)设置maxBufferedDocs等-1,禁用maxBufferDocs
(4)设置mergeFactor为100




有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,我们同行。


0
1
分享到:
评论

相关推荐

    hive-solr-master.zip_hive_solr_solr-hive

    本文将深入探讨如何通过"solr-hive"插件将这两者结合起来,实现Hive数据与Solr的同步,从而提升大数据环境下的实时搜索效率。 首先,理解Hive-Solr集成的核心意义在于,它允许我们将经过Hive处理后的大量结构化数据...

    ranger-2.0.0-SNAPSHOT-solr-plugin.tar.gz

    1. 下载与解压:首先,你需要下载`ranger-2.0.0-SNAPSHOT-solr-plugin.tar.gz`压缩包,解压后得到`ranger-2.0.0-SNAPSHOT-solr-plugin`文件夹,其中包含了所有必要的插件文件。 2. 安装插件:将解压后的插件文件...

    大数据元数据开源解决方案apache atlas

    通过研究源码,你可以了解如何实现元数据存储(如使用HBase)、索引服务(如使用Solr)以及如何与其他大数据组件(如Hive、HBase)集成。同时,这也是一个学习和贡献开源项目的好机会。 总的来说,Apache Atlas 是...

    华为大数据内部培训资料

    首先,FusionInsight HD是华为面向企业级大数据应用场景推出的一体化解决方案,它集成了多种开源大数据组件,如Hadoop、HBase、Spark、Hive等,旨在为企业提供高效、稳定且易于管理的大数据平台。FusionInsight HD的...

    apache-atlas-2.1.0-server.tar.gz 包含自带hbase和solr

    在Apache Atlas中,Solr用于构建元数据的索引,使得用户可以通过丰富的查询语法来快速查找和探索元数据。这极大地提升了元数据的可发现性和可用性。 **Apache Atlas 2.1.0 版本**: 这个版本可能包含了对元数据管理...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 23.Zookeeper服务(共47页).pptx

    - **Solr**:开源搜索平台,用于全文索引和搜索。 - **Neo4j**:图形数据库,处理高度互联的数据。 - **Elasticsearch**:分布式搜索引擎,支持实时分析。 这些课程内容旨在帮助学习者掌握大数据与云计算领域的...

    元数据管理部署及集成各组件的详细文档

    总结起来,元数据管理是提升大数据项目效率和数据质量的关键。Apache Atlas提供了一种强大的工具,用于管理和整合各种组件的元数据。通过精心部署和集成,我们可以实现全面的数据治理,提高数据的可发现性、理解和...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 38.Lily(共23页).pptx

    教程还包含了如Zookeeper(分布式协调服务)、Pig(大数据分析工具)、Hive(数据仓库工具)、Hive操作、HBase、Pig Latin、Pig模式与函数、Sqoop(数据导入导出工具)、Flume(日志收集系统)、Kafka(消息队列)、...

    大数据资料Spark\HBase\HDFS 二次开发 PPT

    这份压缩包文件包含了一系列关于大数据技术的PPT和PDF文档,主要聚焦于Spark、HBase、HDFS的二次开发以及相关的技术,如Hive、Kafka、Solr和MapReduce等。以下是这些资源中涉及的主要知识点: 1. **Spark二次开发**...

    Scaling Big Data with Hadoop and Solr

    标题《Scaling Big Data with Hadoop and Solr》和描述以及标签中提到的Hadoop、Solr和BigData,涉及的是大数据领域的几个关键技术点,结合对全文内容的理解,以下为详细知识点: 1. Hadoop的定义及特点 Hadoop是一...

    李建伟:Hadoop新技术介绍

    - Solr:是一个开源的搜索引擎,主要用于搜索应用中的实时搜索、全文搜索、自动索引以及聚类等。 - Kafka:是一个分布式流处理平台,它用于处理实时数据流,主要用在构建实时数据管道和流应用中。 - Flume:是一个...

    solrcloud windows 环境搭建

    它在Hadoop生态系统中的多个组件(例如HBase、Hive、Solr等)中扮演着关键角色。 - **集群管理**:Zookeeper负责维护集群状态,支持主从管理、负载均衡、高可用性管理等功能。 - **配置文件集中管理**:在Solr集群...

    hadoop快速入门

    - **起源**:Hadoop起源于Nutch项目,最初目的是解决大规模网页抓取与索引的问题。 - **关键技术来源**:2003年和2004年谷歌发表的关于分布式文件系统(Google File System, GFS)和分布式计算框架(MapReduce)的论文...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx

    【大数据与云计算教程】\n\n本教程涵盖了大数据与云计算领域的多个重要技术,包括但不限于Hadoop、MapReduce、YARN、HDFS、Hive、HBase、Pig、Zookeeper、Sqoop、Flume、Kafka、Storm、Spark、Oozie、Impala、Solr、...

    SolrCloud集群搭建教程

    SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。...Zookeeper:是一个分布式的、开源的程序协调服务,是hadoop项目下的一个子项目。

    高校大数据及其处理架构.docx

    对于 Web 网页这类非结构化数据,通过 Nutch 进行抓取,Solr 对数据进行索引后存储到 Hbase 数据库中,示意图如图 2 所示。Hbase 数据库是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式...

Global site tag (gtag.js) - Google Analytics