`
liuxinglanyue
  • 浏览: 565339 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Solr1.4.0源码分析(一) 解决DataImportHandler从数据库导入大量数据而内存溢出的问题(转)

    博客分类:
  • Solr
阅读更多

http://guoyunsky.iteye.com/blog/759148

      Solr有个很方便的处理器叫DataImportHandler,可以通过配置配置db-data-config.xml配置各种数据源然后
从中导入数据进行索引,很方便我们进行开发.但是之前从数据库导入数据一直有个问题,就是如果数据库中数据过大,就会导致内存溢出.自己经过阅读源码以及发邮件到Solr邮件列表,终于找到了解决办法,这里拿出来共享.
      这里我的Solr版本是Solr1.4.0,数据库是Sql Server2005.其他数据库可能有些不适用(请在其他数据库运行成功的同学也分享下),但根据这个思路应该都有自己的解决方案.
      DataImportHandler中从数据库导入数据进行索引主要通过JDBC进行处理.由于自己对JDBC的认识浅薄,一直认为JDBC是一次性将要查询的数据从数据库中数据读取过去.但没有想到其实从数据库获取数据其实也是以流的形式,可以一段段的获取.也就是可以在客户端每获取一条再从流中取新的一条数据如此取完为止(这里感谢高手提示).由于使用的数据库是Sql Server2005,本想通过它的sqljdbc.jar中获取些提示(尝试下源码没有成功),从Jar中大概发现Sql Server有这样的设置,于是上微软官网的MSDN获取到了答案(
URL:http://msdn.microsoft.com/zh-cn/library/ms378663(SQL.90).aspx):

      Sets the default cursor type that is used for all result sets that are created by using this SQLServerDataSource object.
  复制
        public void setSelectMethod(java.lang.String selectMethod)
  参数
        selectMethod
        A String value that contains the default cursor type.
  备注
       The selectMethod is the default cursor type that is used for a result set. This property is useful when you are dealing with large result  sets and do not want to store the whole result set in memory on the client side. By setting the property to "cursor," you can create a  server-side cursor that can fetch smaller chunks of data at a time. If the selectMethod property is not set, getSelectMethod returns the  default value of "direct".

 

     同时这样做的话也要设置Connection的两个属性:ResultSet.TYPE_FORWARD_ONLY,ResultSet.CONCUR_READ_ONLY.但跟踪源码发现Solr中已经有这样的设置.于是可以直接在db-data-config.xml中配置即可完成,具体配置如下:

<dataSource name="dsSqlServer" type="JdbcDataSource" driver="com.microsoft.sqlserver.jdbc.SQLServerDriver" batchSize="3000" url="jdbc:sqlserver://192.168.1.5:1433; DatabaseName=testDatabase;responseBuffering=adaptive;selectMethod=cursor" user="sa" password="12345" />


    其中只要在URL中加上responseBuffering=adaptive;selectMethod=cursor即可,无论多大的表根据这个配置Solr都可以从中读取数据并索引完成,当然,前提是不发生什么故障,如网络故障.这一想法也得到了Solr开发人员的验证,以下是他们给我回复的邮件:
      
That's not really true. DataImportHandler streams the result from database query and adding documents into index. So it shouldn't load all database data into memory. Disabling autoCommit, warming queries and spellcheckers usually decreases required amount of memory during
  indexing process.Please share your hardware details, jvm options, solrconfig and schema configuration, etc.

 

  

       但如此还是会造成一种隐患,就是如果表数据太大.如此会导致Solr一直在那获取数据并且索引.一旦发生什么故障如网络问题,Solr之前所做的索引就会前功尽弃,因为我们根本不知道它索引了多少条,索引到了哪里(后来看代码其实这种担忧是多余的,一旦发生网络异常,Solr会抛出异常,然后进行回滚,将索引恢复到索引之前的状态,也就是说之前做的一切根本
是白做,而Lucene写索引的速度又是相当慢,在如此长的时间内发生不可预见的问题绝对有可能).同时Solr要写完一次索引才会通知IndexSearcher让IndexReader去reopen,所以在那么长一段时间内所索引的数据你是无法搜索到.于是自己想通过ID(Solr里设置的<uniqueKey>)分批来处理.但这个ID是数字要更方便,比如设置个起点,和一次索引多少条.如起点为1,一次索引10000条。如此Solr会从1-10000,10001-20000,如此一直不停的索引下去.本想自己继承个DataImportHandler去处理,后来Solr开发者给我回复的邮件告诉我,Solr通过配置也完全可以实现,邮件内容具体如下:  

      You can _batch_ import your data using full import command by providing additional request parameter (see
  
http://wiki.apache.org/solr/DataImportHandler#Accessing_request_parameters), i.e. 
  query="SELECT * FROM my_table ORDER BY id LIMIT 1000000 OFFSET ${dataimporter.request.offset}" 
  and then calling full-import command several times:
  1) /dataimport?clean=true&offset=0
  2) /dataimport?clean=false&offset=1000000
  3) /dataimport?clean=false&offset=2000000
  etc

 

    于是我在db-data-config.xml中用如下配置:

<entity name="TestEntity" dataSource="dsSqlServer" pk="Id" query="SELECT Id,Title,Author,Content,Url,AddOn FROM Test WHERE Id>=${dataimporter.request.offset} And Id<=${dataimporter.request.offset}+10000" >


   同时运用 
   1) /dataimport?clean=true&offset=0
  2) /dataimport?clean=false&offset=1000000
  3) /dataimport?clean=false&offset=2000000
  这些URL去请求SOlr进行索引.Solr会读取offset这个参数区建立query查询语句,然后去获取这些查询语句的数据去索引.但如此最好还是自己写个类做下控制.可以一开始获取表的总结果条数然后通过以上循环迭代完成.其中里面的+10000也可以设置为一个参数,如${dataimporter.request.intervalRows}表示一次获取多少条,然后在URL里加&intervalRows这个参数,具体我还还没试过.同时由于索引还是个长期的过程,所以这里最好记录好每次索引索引成功的间隔.比如在30000-40000索引成功的时候将他们记录日志.如此在索引40000-50000的时候一旦发生问题,我们可以通过日志获取上一次成功索引的间隔数,再从这个间隔去重新生成URL去索引数据.
  
     以上希望起个抛砖引玉的作用,能对大家有所帮助,如果还有什么问题请留言。同时我这里处理的仅仅是SqlServer2005,其他数据库上操作成功的请分享下。同时如果你可以保证你间隔获取的数据如10000-20000这些数据不会导致内存溢出,那么你也可以不使用responseBuffering=adaptive;selectMethod=cursor这种配置.直接通过设置请求URL的offset来处理.

 

分享到:
评论

相关推荐

    solr6--solr-dataimporthandler-scheduler-1.1

    DataImportHandler(DIH)是Solr的一个插件,用于从关系型数据库或其他结构化数据源导入数据。它支持多种数据源,如MySQL、Oracle、CSV文件等,并且可以通过XML配置来定义数据源、查询语句以及如何将查询结果转换为...

    apache-solr-dataimporthandler-extras-1.4.0.jar.zip

    DataImportHandler是Apache Solr的一个特性,它允许Solr从外部数据源导入数据,如数据库、文件系统或其他Web服务。DIH的主要目的是简化索引过程,使Solr能够动态地、增量地更新其索引,而无需每次变更都完全重建索引...

    solr7.4数据库导入Demo(mysql数据库)

    在Solr 7.4版本中,我们可以通过数据导入工具(DataImportHandler, DIH)来实现数据库中的数据导入,以便进行全文搜索和分析。本Demo将展示如何使用Solr 7.4与MySQL数据库集成,实现数据导入,并结合IK分词器提升...

    solr-dataimporthandler的jar包

    Solr 数据导入处理器(DataImportHandler,DIH)是 Apache Solr 的一个重要组件,它允许用户从各种数据源,如关系型数据库、CSV 文件等,批量导入数据到 Solr 索引中。这个功能极大地简化了数据同步和更新的过程,...

    solr-dataimporthandler.rar

    Solr DataImportHandler (DIH) 是Apache Solr的一个强大特性,它允许用户从各种数据源导入数据到Solr索引。在给定的压缩包"solr-dataimporthandler.rar"中,包含了两个关键的JAR文件:"solr-dataimporthandler-8.9.0...

    跟益达学Solr5之从MySQL数据库导入数据并索引

    《跟益达学Solr5之从MySQL数据库导入数据并索引》这篇文章主要探讨了如何使用Apache Solr 5从MySQL数据库中导入数据并建立索引,以便进行高效的全文搜索。Solr是一款强大的开源搜索服务器,它提供了丰富的查询语言、...

    apache-solr-1.4.0.zip_apache-solr _apache-solr-1.4.0_apache-solr

    它基于Java,并且是Lucene库的一个高级封装,提供了更加便捷和可扩展的全文检索、数据分析和搜索功能。在1.4.0版本中,Solr已经相当成熟,为用户提供了许多核心功能和改进。 1. **全文检索**:Solr的核心功能之一...

    solr5.3.1 导入mysql数据

    Solr 5.3.1 是 Apache Solr 的一个版本,它是一个开源的搜索平台,广泛用于企业级的全文检索、数据分析和分布式搜索。Solr 基于 Lucene 库,提供了高度可配置和可扩展的搜索服务。在本案例中,我们将探讨如何将 ...

    solr-dataimporthandler-scheduler-1.1

    总结来说,"solr-dataimporthandler-scheduler-1.1" 是一个用于自动化 Solr 数据导入过程的插件,它通过源码的形式提供,用户可以根据实际需求进行定制和编译。这个插件的核心功能是增量更新,通过定时任务监控数据...

    solr-6.2.0源码

    Solr是Apache软件基金会开发的一款开源全文搜索引擎,它基于Java平台,是Lucene的一个扩展,提供了更为方便和强大的搜索功能。在Solr 6.2.0版本中,这个强大的分布式搜索引擎引入了许多新特性和改进,使其在处理大...

    solr在tomcat下的搭建和配置数据库

    - 将`solr-4.3.0\dist`文件夹下的数据导入相关的JAR包(`solr-dataimporthandler-4.3.0.jar`和`solr-dataimporthandler-extras-4.3.0.jar`)复制到`SOLR_HOME\lib`目录下。 **步骤3:配置Tomcat上下文** - 在`tomcat...

    Solr数据库插入(全量和增量)索引

    DIH 是 Solr 中的一个工具,用于将数据从外部数据源导入 Solr 索引库中。使用 DIH,我们可以将数据从 Oracle 数据库中提取出来,然后将其插入 Solr 索引库中。 增量索引 增量索引是指将新添加或更新的数据插入 ...

    solr连接数据库配置

    在Solr中,连接数据库是一项重要的配置,这使得我们可以将数据库中的数据导入到Solr中,以便进行快速检索。这篇博客“solr连接数据库配置”可能是关于如何在Solr中设置和管理与数据库的连接,以便索引和查询来自...

    solr定时自动同步数据库需要用到的apache-solr-dataimportscheduler.jar包

    DIH允许Solr从各种数据源,如关系型数据库MySQL,导入数据。 在标题提到的"solr定时自动同步数据库需要用到的apache-solr-dataimportscheduler.jar包"中,`apache-solr-dataimportscheduler.jar`是用于实现Solr数据...

    solr6 增量导入demo

    1. DataImportHandler(DIH):Solr6使用DIH进行数据导入,它是Solr内置的一个处理程序,可以连接到各种数据源(如数据库),并将数据导入到Solr索引中。DIH支持增量导入,通过跟踪数据库的LastModified时间戳或者...

    solr同步数据库需要jar包

    总的来说,Solr与数据库的同步是一个涉及多方面技术的过程,包括数据库连接、数据变更检测、数据转换以及索引操作。而jar包则扮演了提供必要功能库的角色,使得这一过程能够顺利进行。正确选择和使用jar包,结合合适...

    solr-dataimporthandler-8.11.2.jar

    solr 检索用包

    solr-dataimporthandler

    solr-dataimporthandler数据库连接,

    solr4.7从数据库导数据[归类].pdf

    Solr 4.7 是一个流行的全文搜索引擎,它允许用户通过数据导入处理器(DataImportHandler, DIH)从关系型数据库如 SQL Server 导入数据并建立索引,以实现快速搜索。在这个教程中,我们将深入理解如何在 Solr 4.7 中...

Global site tag (gtag.js) - Google Analytics