`
pppqqq800
  • 浏览: 11628 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

lucene 3.3 合并索引数据文件

阅读更多
     做合并的初衷是想先按照分类先建立相应索引文件,一个分类一个分类重建速度上比较快,而且影响面比较小,然后通过合并的方式,建立大的索引数据文件。因为合并的速度还是很快的。 


IndexWriter indexWriter = null;
   try {
   Directory index1 = FSDirectory.open(new File(
"E:\\1"));
   Directory index2 = FSDirectory.open(new File(
"E:\\2"));
   Directory merged = FSDirectory.open(new File(
"E:\\merged"));

    IndexWriter writer =new IndexWriter(merged,analyzer(选用自己的分词器),true(删除该文件目录原来的索引文件,不想删用false),IndexWriter.MaxFieldLength.UNLIMITED);
    //writer.setInfoStream(true ? System.out : null);
        writer.addIndexes(new Directory[]{index1, index2});
        writer.optimize();
        writer.close();

  
   } catch (Exception e) {
    System.out.println("合并索引出错!");
    e.printStackTrace();
   } finally {
    try {
     if (indexWriter != null)
      indexWriter.close();
    } catch (Exception e) {
    }
   }
分享到:
评论
7 楼 leon.s.kennedy 2012-05-29  
pppqqq800 写道
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。


请问如果数据量特大。。。做索引还不死了。。。



如果数据量特大 不做索引 你死得更惨 尤其不做全文索引 。


哦。。请问博主参加的项目 用过lucene吗?
也是全部索引?


当然是用了才写的啊。。。。。。按需索引。 
你需要什么 就索引什么就好。


哦哦。多谢指点!
请问博主有使用lucene的场景的源码吗?方便给我研究下吗?
谢谢
6 楼 pppqqq800 2012-05-29  
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。


请问如果数据量特大。。。做索引还不死了。。。



如果数据量特大 不做索引 你死得更惨 尤其不做全文索引 。


哦。。请问博主参加的项目 用过lucene吗?
也是全部索引?


当然是用了才写的啊。。。。。。按需索引。 
你需要什么 就索引什么就好。
5 楼 leon.s.kennedy 2012-05-29  
pppqqq800 写道
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。


请问如果数据量特大。。。做索引还不死了。。。



如果数据量特大 不做索引 你死得更惨 尤其不做全文索引 。


哦。。请问博主参加的项目 用过lucene吗?
也是全部索引?
4 楼 pppqqq800 2012-05-29  
leon.s.kennedy 写道
pppqqq800 写道
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。


请问如果数据量特大。。。做索引还不死了。。。



如果数据量特大 不做索引 你死得更惨 尤其不做全文索引 。
3 楼 leon.s.kennedy 2012-05-28  
pppqqq800 写道
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。


请问如果数据量特大。。。做索引还不死了。。。
2 楼 pppqqq800 2012-05-28  
leon.s.kennedy 写道
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

第一次 全量索引 是很大的工程,  所以一定要设计好 ,避免以后总要去修改 那样就悲剧了。

主要的时间是消耗在读取数据上,生成索引速度还是很快的。

添加,删除 有相应的方法,不需要全部重新做。
1 楼 leon.s.kennedy 2012-05-28  
博主您好
请问 将lucene用于javaEE中我有个问题
从数据库中读出来数据 再给这些数据做索引吗?
如果是,那数据量大,做索引得多久

如果我新添了一条数据 或 者 删除一条,更新一条,还要重新做索引吗?
请指点 谢谢

相关推荐

    Lucene3.3_API文档

    - **索引(Indexing)**: 是Lucene处理文档的第一步,它将文本数据转换为倒排索引(Inverted Index)。在这个过程中,Lucene会分析文档内容,生成词项(Term),并为每个词项创建一个文档频率列表。 - **查询...

    lucene最新版本3.3的基本功能用法(IK分词是3.2.8)

    1. 性能优化:通过调整IndexWriterConfig的参数,如最大缓冲文档数、合并策略等,可以优化索引性能。 2. 分词扩展:IK分词器允许自定义词典,开发者可以根据需求添加或删除词汇,提升分词效果。 3. 查询优化:使用...

    Lucene初级教程

    - 在Lucene中,添加索引的过程不是一次性将所有Document添加到同一个索引文件中,而是先将它们写入到多个较小的文件(称为Segment),之后再将这些Segment合并成较大的索引文件。 #### 4. 如何建立索引 - **4.1 ...

    lucene的封装和性能优化

    在大数据量场景下,可以采用分片策略,将索引分散到多个节点上,利用Lucene的分布式搜索能力,提高查询效率。 #### 3.2 延迟索引更新 为了减少实时索引更新对系统性能的影响,可以采用延迟索引更新策略,将多个小...

    Lucene使用教程

    当索引发生变化时(如新增文档),Lucene会自动合并段以提高性能。 #### 四、Lucene基本使用示例 下面是一个简单的Lucene使用示例,演示如何创建索引和添加文档: ```java // 创建索引写入器 IndexWriter writer ...

    lucene3.5学习笔记

    - 配置是否自动合并索引。 - 其他高级配置选项。 **2.3 IndexWriter** - 创建索引。 - 更新或删除索引项。 - 提供优化索引的方法。 **2.4 Document** - 构建文档对象。 - 添加字段到文档。 **2.5 Field** - ...

    lucene全文检索

    通过 Segment 合并和 NRT(Near Real-time)管理,Lucene 可以在短时间内完成索引更新并反映到搜索结果中。 ### 应用场景 Lucene 被广泛应用在各种搜索引擎项目中,如网站的站内搜索、企业内部文档检索系统、电子...

    lucene 初级教程

    随着索引的更新,这些`Segment`会被合并成更大的索引文件,以提高检索性能。 #### 4. 如何建立索引 - **4.1 最简单的索引构建代码示例** - 下面的代码示例展示了如何使用Lucene创建一个简单的索引: ```java ...

    一个专业搜索公司关于lucene+solar资料(1)

    - 定期合并索引分段,减少碎片化,提高查询速度。 - 需要考虑合并时机和影响。 - **6.2.6 索引的定时更新** - 根据实际需求设置定时更新机制,保证索引库的新鲜度。 - 需要考虑更新频率和数据一致性。 - **...

    Elasticsearch 技术解析与实战.zip

    56 2.5 索引监控 60 2.5.1 索引统计 60 2.5.2 索引分片 62 2.5.3 索引恢复 63 2.5.4 索引分片存储 64 2.6 状态管理 64 2.6.1 清除缓存 64 2.6.2 索引刷新 64 2.6.3 冲洗 65 2.6.4 合并索引 65 2.7 文档管理 66 2.7.1...

    开源企业搜索引擎SOLR的应用教程

    - **1.2.4 核心**:Solr的核心是指Solr服务器中的一个逻辑单元,每个核心都有自己的配置文件和索引数据,可以独立运行。 - **1.2.5 缓存**:为了提高查询速度,Solr内置了多种缓存机制,如查询结果缓存和字段值缓存...

    自己动手写网络爬虫(基本全)

    **3.3 抓取本地硬盘上的文件** - **文件系统操作:** - 目录遍历,实现对指定目录及其子目录下文件的遍历。 - 文件格式识别与处理。 **3.4 本章小结** - **知识梳理:** 对本章介绍的数据抓取技术进行了总结。 #...

    solr教程+实例

    3.2 配置Solr核心:自定义schema.xml文件,定义字段类型和字段,以及索引和查询分析器。 3.3 数据导入导出:使用DataImportHandler (DIH) 导入外部数据库数据,或者通过HTTP API批量上传JSON、XML等格式的数据。 四...

    solr教材-PDF版

    - **1.4.2 Solrhome说明**:Solrhome是Solr实例的工作目录,包含了索引数据、配置文件等重要信息。 - **1.4.3 solr的各包的说明**:Solr的各个包按照功能模块划分,如org.apache.solr.client包包含了客户端相关的类...

    Solr3.5开发应用指导

    - **1.4.2 Solrhome说明**:Solrhome是Solr运行时使用的根目录,包含了所有配置文件、日志文件和索引数据等。 - **1.4.3 solr的各包的说明**:Solr的源码按照功能划分成多个包,每个包负责特定的功能模块,如`org....

    开源企业搜索引擎SOLR的 应用教程

    Solr支持主从复制机制,可以在多个节点之间同步索引数据,从而提供高可用性和负载均衡。 - **1.2.7 管理接口** Solr提供了一个Web管理界面,可以方便地监控系统状态、执行管理命令等。 **1.3 Solr服务原理** - *...

    Solrj 中文教程

    - **1.3.1 索引**:数据经过预处理后,被添加到索引中,索引结构由Schema定义。 - **1.3.2 搜索**:用户发起搜索请求,Solr根据请求参数执行相应的查询,并返回结果。 ##### 1.4 源码结构 Solr的源码结构分为几个...

Global site tag (gtag.js) - Google Analytics