`

hbase跑数到solr时数据对不上一些简单总结

 
阅读更多

 

 

工作中,需要将hbase数据跑到solr里做部分字段索引,目前出现过两种情况:

 

1 假设hbase有100条, 跑到solr里是70条

 

2 假设hbase有100条,跑完job后mr显示 reduce input输出个数是100,但是在solr界面查询时,

   报错,包什么字段 XX not found之类 ,但是看solr对应的索引库的schema.xml根本没定义这个字段

 

 

针对问题1,

solr ---> hbase时, 跑的job下  拷贝这个job的链接,然后放在ie上,
然后点击Counters

看Map-Reduce Framework,
看 Map input records  Map output records 个数对不对 
看 Reduce input redocds   Reduce output records    来看map reduce个数是否一致,

 

处理方式:  重新跑这个脚本,具体原因不知道,只能想到是跑的时候 网断了还是怎么滴,数没有完全跑过来

 

 

针对问题2,

我是将索引库的 schema.xml 在window下编辑后在上传提交到linux对应索引库下替代schema,

不知道为什么这种操作下已经出现过两次错误了,这次是跑完到solr的数据查不到,以前还有一次是

直接跑job的时候就报错,

 

处理方式, 将linux下的对应索引库文件下到window,然后修改后整体提交到linux上覆盖,在重新跑。

 

 

 

 

关于solr工作中的用法,总结 和hbase的结合 和查询速度的schema的加缓存优化,会后续慢慢加进来.....

 

 

 

 

分享到:
评论

相关推荐

    Hbase同步数据到Solr的方案

    总结来说,HBase Indexer提供了一种高效、自动化的解决方案,用于将HBase中的数据同步到Solr,以实现强大的搜索功能。通过利用HBase的Replication机制,它降低了开发复杂性和潜在的性能瓶颈,是大数据环境中的理想...

    hbase+solr创建二级索引完整操作

    - 调整Shard数、Replica数时需考虑集群规模及性能需求,避免资源浪费或不足。 - 实验过程中建议在测试环境中先行尝试,确认无误后再应用到生产环境。 通过以上步骤,您可以成功地在HBase与Solr之间创建二级索引,...

    CDH使用Solr实现HBase二级索引.docx

    然而,在查询和检索数据时,HBase 的性能可能不太理想。这是因为 HBase 是基于 Key-Value 的存储方式,查询时需要遍历整个表。为了提高查询性能,可以使用二级索引来索引数据。Solr 是一个流行的搜索平台,具有强大...

    1-7+HBase+for+Solr+介绍.zip

    综上所述,这份资料是学习和理解HBase与Solr集成的宝贵资源,适合对大数据搜索和存储感兴趣的开发者、架构师,以及希望提升系统性能的IT专业人士。通过深入学习,读者能够掌握如何在大规模数据场景下,利用HBase的强...

    hbase+Coprocesser+solr实现二级索引

    总的来说,通过HBase的Coprocessor和Solr的集成,我们可以实现对HBase数据的复杂查询和全文搜索,极大地扩展了HBase的应用范围。这个过程虽然相对复杂,但一旦设置好,就能带来显著的查询性能提升,对于需要高效检索...

    solr+hbase

    当 Solr 集成 HBase 时,Solr 可以作为 HBase 的索引层,提供快速的全文搜索和高级查询功能,而 HBase 则负责存储和管理大量结构化和半结构化数据。这种结合的优势包括: 1. **实时搜索**:通过 Solr 的实时索引,...

    hbase-solr-coprocessor:通过solr实现hbase二级索引,主要通过hbase的coprocessor的Observer实现

    项目核心为SolrIndexCoprocessorObserver,该类继承BaseRegionObserver,并实现postPut和postDelete方法,以实现hbase数据同步到solr。考虑到solr插入效率和频繁写入的问题,这里实现了一个简单的缓冲池,当达到最大...

    apache-atlas-2.1.0-server.tar.gz 不含hbase和solr

    Apache Atlas 是一个开源的数据治理平台,它主要用于元数据管理、数据血缘...总的来说,尽管这个版本不包含HBase和Solr,但它仍然提供了一个强大的基础,让用户可以根据自身的基础设施和安全要求定制数据治理解决方案。

    solr-8.6.3.tgz+hbase-2.3.3-bin.tar.gz

    标题中的"solr-8.6.3.tgz+hbase-2.3.3-bin.tar.gz"表明我们有两个重要的开源软件版本:Apache Solr 8.6.3和HBase 2.3.3。Solr是Apache软件基金会的一个项目,主要用于全文搜索、企业级搜索和大数据分析。而HBase则是...

    基于cdh5.7.5集群的solr(4.10.3-cdh5.7.5)+hbase(1.2.0-cdh5.7.5)构建二级索引方案

    4. **集成HBase和Solr**:配置HBase的`hbase-site.xml`,启用HBase-Solr连接器(如`hbase.indexer.solr.zookeeper.quorum`等),使HBase能够自动将数据同步到Solr。 5. **实时同步**:当HBase中的数据发生变化时,...

    基于hbase+solr的搜索引擎毕业论文

    简单的来说,在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后...

    连接 HBASE和MongoDB的驱动程序,配置后可直接导数据。很好用.zip

    这暗示了可能有一个解决方案,可以将MongoDB的数据先导入到Solr,然后通过Solr与HBase交互,因为Solr与HBase的集成相对成熟,有专门的HBase Realtime Get (HRG)插件支持。 另一个文件名"W"没有明确的上下文,可能是...

    HBase视频教程下载|基于微博数据应用的HBase实战开发

    课时21:使用sqoop2将mysql数据导入到HBase 课时22:集群管理之节点管理与数据任务 课时23:Rowkey设计与集群常见故障处理 课时24:集群调优经验分享 课时25:项目介绍与Solr环境搭建 课时26:数据层设计与中文...

    hbase-indexer

    3. **索引构建**:当检测到数据变更时,HBase-Indexer将变更数据转换为Solr文档,并提交到Solr索引。 4. **查询优化**:Solr接收查询请求,利用其强大的查询引擎返回结果。 5. **结果展示**:查询结果返回给用户,...

    HBase上使用SQL查询Phoniex.zip

    Phoniex 可以让开发者在HBase数据集上使用SQL查询。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集,对于简单查询来说,性能甚至胜过Hive。 标签:Phoniex

    apache-atlas-2.1.0-server.tar.gz 包含自带hbase和solr

    Apache Atlas 是一个元数据管理系统,主要用于大数据环境中的数据治理、数据血缘追踪和数据安全。在标题中提到的 "apache-atlas-2.1.0-server.tar.gz" 是 Apache Atlas 的一个服务器版本,该版本已经过源码编译,...

Global site tag (gtag.js) - Google Analytics