`
Josh_Persistence
  • 浏览: 1651411 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类

Solr 4.x定时、实时增量索引 - 修改、删除和新增索引

    博客分类:
  • Solr
阅读更多

          开始之前,可以参考上篇博文全量索引-数据导入并索引:

http://josh-persistence.iteye.com/admin/blogs/2017059

 

          Solr增量索引配置

 

一、开始增量索引前的准备工作。

1、认识data-config.xml中相关属性

       <!--  transformer 格式转化:HTMLStripTransforme表示 索引中将忽略HTML标签   ---> 

       <!--  query:  查询数据库表符合记录数据   ---> 
       <!--  deltaQuery:增量索引   查询主键ID    --->    注意这个query只返回ID字段 
       <!--  deltaImportQuery:增量索引   查询导入的数据  ---> 
       <!--  deletedPkQuery:增量索引  删除主键ID查询  ---> 注意这个只返回ID字段 

最主要的是我们要知道这样一个事实: 

 1) last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)

  2) 我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。

 

2、数据库配置注意事项

1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql) 

 

2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以 

 

 3、dataimporter.properties / {corename}_dataimporter.properties

在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。

这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:

 

在data-config中添加如下配置信息。

<dataConfig>    
   <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中)  --->  <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>  
       <document>          
          <entity pk="ID"  dataSource="activityDB" name="myentity"
            query="select * from myentity WHERE isdelete=0"  
         deltaQuery="select ID  from myentity where my_date >'${dih.last_index_time}'"  
            deletedPkQuery="select ID from myentity where isdelete=1"
            deltaImportQuery="select * from myentity where ID='${dih.delta.id}">  
          
          <!--  ID指定大写的,与上面语句中的对应起来---->       
          <field column="ID" name="id"/>  
          <field column="name" name="name"/>  
          <field column="address" name="address"/>  
          <field column="age" name="age"/>  
          <field column="my_date" name="my_date"/>  
          <field column="isdelete" name="isdelete"/>  

        </entity>
   </document>
</dataConfig>

 

说明:

 

<!-- pk="ID" 必须,因为其中的增量索引查询主键ID时需要  -->  
           
           <!--  dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 -->  
           
           <!--  name="myentity" 存在多个实体时,这个名字必须唯一 -->  
           
           <!--  query:用于全量导入而非增量导入
           query="select * from myentity WHERE isdelete=0  
           query查询是指查询出表里所有的符合条件的数据,因为我测试的有删除业务,所以  
           where后面有一个限定条件isdelete=0,意思为查询未被删除的数据    
           --> 

          <!--  deltaQuery : 用于增量导入且只返回ID
             deltaQuery="select ID  from myentity where my_date >
                 '${dih.last_index_time}'"  
             deltaQuery的意思是,查询出所有经过修改的记录的ID  
             可能是修改操作,添加操作,删除操作产生的   
          -->  

         <!--  deletedPkQuery : 用于增量导入且只返回ID
          deletedPkQuery="select ID from myentity where isdelete=1"    
          此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据)  
          solr通过它来删除索引里面对应的数据 
         --> 
          
         <!--  deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列
       deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"
      deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据  
       对索引库进行更新操作,可能是删除,添加,修改        
      -->
 

 注:如果有必要,则可以在schema.xml中添加一个timestamp的field

<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />

 

 

做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:

http://localhost:8983/solr/dataimport?command=delta-import 去做增量索引。

更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler

 

当然也可以用Solr自带的Scheduler来做增量索引:

http://wiki.apache.org/solr/DataImportHandler#Scheduling

 

 

 

2
0
分享到:
评论

相关推荐

    solr-dataimport-scheduler.jar 可使用于solr7.x版本

    总的来说,solr-dataimport-scheduler.jar是Solr 7.x版本中实现定时数据导入和索引更新的关键工具,它极大地提升了Solr在实时和大数据环境下的性能和可靠性。通过合理配置和使用,可以确保你的Solr实例始终拥有最新...

    solr6.5.1定时增量apache-solr-dataimportscheduler

    总的来说,Apache Solr6.5.1的定时增量数据导入特性通过`solr-dataimporthandler`和`solr-data-import-scheduler`这两个组件,实现了对数据源的自动化、智能化管理,极大地提高了数据检索的实时性和系统的响应速度。...

    solr增量更新架包apache-solr-dataimportscheduler.jar

    增量更新是Solr的一个关键特性,它允许系统仅处理自上次完整索引以来发生更改的数据,从而提高了性能并降低了资源消耗。"apache-solr-dataimportscheduler.jar" 是一个专门为Solr设计的扩展包,用于实现自动化的数据...

    solr定时增量更新索引所需jar包

    solr定时增量更新索引所需jar包包括:solr-dataimporthandler-4.0.0.jar、solr-dataimportscheduler.jar(6.x适用)、solr-dataimporthandler-extras-4.0.0.jar。

    apache-solr-dataimportscheduler.jar

    基于solr4.x定时任务重新打的jar包

    Solr数据库插入(全量和增量)索引

    Solr 数据库插入全量和增量索引 Solr 是一个基于 Lucene 的搜索引擎,可以快速高效地对大量数据进行索引和查询。在实际应用中,我们需要将数据插入 Solr 索引库中,以便实现高效的搜索功能。本文将详细介绍 Solr ...

    配置好的solr启动环境

    2. **增量创建索引**:Solr支持增量索引,意味着当新的数据加入或已有数据发生变化时,无需重新构建整个索引,而是只更新受影响的部分。这对于大型数据集来说,既节省时间又节省资源。 3. **创建索引**:索引是Solr...

    solr-dataimportscheduler-1.4.jar 增量定时同步数据到solr.rar

    DIH支持全量导入和增量导入,这使得Solr可以保持与数据库的实时同步,从而提供最新的搜索结果。 1. **DataImportHandler (DIH)**: DIH是Solr的一个核心特性,允许开发者定义数据源、数据转换和数据加载过程。它通过...

    solr增量导入更新索引包

    Solr,作为一款流行的开源全文搜索引擎,经常被用于大规模数据的快速检索。...通过理解并正确应用上述知识点,你可以有效地管理和维护Solr的增量导入更新索引,确保系统的高效运行和数据的实时性。

    (solr系列:五) solr定时实时重建索引和增量更新-附件资源

    (solr系列:五) solr定时实时重建索引和增量更新-附件资源

    solr-dataimporthandler的jar包

    Solr 数据导入处理器(DataImportHandler,DIH)是 Apache Solr 的一个重要组件,它允许用户从各种数据源,如关系型数据库、CSV 文件等,批量导入数据到 Solr 索引中。这个功能极大地简化了数据同步和更新的过程,...

    slor定时增量更新索引dataimport.properties

    slor定时增量更新索引dataimport.properties

    跟益达学Solr5之增量索引MySQL数据库表数据

    在这个主题“跟益达学Solr5之增量索引MySQL数据库表数据”中,我们将深入探讨如何利用Solr 5来实现对MySQL数据库表数据的增量索引,以便在搜索时获得实时更新的结果。 首先,我们需要理解什么是增量索引。在传统的...

    支持solr6.1-solr-dataimport-scheduler-1.2.jar

    总的来说,`solr-dataimport-scheduler-1.2.jar` 为 Solr 6.1 增添了定时数据导入的功能,提高了系统的自动化程度和数据更新的实时性。配合 `conf.zip` 中的配置文件,可以灵活地管理和维护 Solr 索引,确保搜索引擎...

    solr-dataimportscheduler-1.1.1.jar

    这可以通过修改Solr的`solrconfig.xml`文件来实现,可以配置成定时任务(如Cron表达式),或者根据系统事件触发,如新数据到达时自动开始增量导入。 总的来说,solr-dataimportscheduler-1.1.1.jar是Solr环境中提高...

    solr定时索引

    Solr的定时索引分为增量索引和完整索引两种方式,每种都有其特定的应用场景和优势。 增量索引:增量索引是指只对自上次索引以来发生变化的数据进行索引更新。这种方式适用于数据频繁更新但整体变化不大的情况,可以...

    windows-solr集群.docx

    - Solr支持通过配置文件实现数据的自动同步和增量更新。 - 在`data-config.xml`中定义`dataSource`和`document`节点来指定数据来源、映射关系等。 - 可以通过Solr管理界面或命令行工具执行数据导入任务。 #### ...

    【修改的版本】solr定时实时重建索引和增量更新-附件资源

    【修改的版本】solr定时实时重建索引和增量更新-附件资源

Global site tag (gtag.js) - Google Analytics