庖丁解牛的Lucene 2.4的全文搜索代码 -

zfsn

浏览: 352391 次
性别:
来自: 北京

最近访客更多访客>>

ks2144634

testjiang3

livizy

liuxiao723846

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

庖丁解牛的Lucene 2.4的全文搜索代码

博客分类：

Lucene

lucene Apache SQL Spring .net

package com.laozizhu.article.util;

import java.io.IOException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import javax.sql.DataSource;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocCollector;

/**
* 基于庖丁解牛的Lucene 2.4的全文搜索代码。
* 
* @author 老紫竹研究室(laozizhu.com)
*/
public class LucenePaoDing {
private static final String indexPath = "d:/indexpaoding/www.laozizhu.com";

/**
   * @param args
   * @throws Exception
   */
public static void main(String[] args) throws Exception {
    rebuildAll();
    String keyword = "Spring.jar";
    LucenePaoDing l = new LucenePaoDing();
    System.out.println("索引搜索\n------------------------------");
    System.out.println(l.seacherIndex(keyword));
}

public static void rebuildAll() {
    synchronized (indexPath) {
      LucenePaoDing l = new LucenePaoDing();
      DataSource ds = (DataSource) Factory.getBean("dataSource");
      Connection con = null;
      Statement stat = null;
      ResultSet rs = null;
      try {
        con = ds.getConnection();
        stat = con.createStatement();
        rs = stat.executeQuery("select id,subject,content from t_article");
        if (rs != null) {
          l.Index(rs);
        }
      } catch (Exception ex) {
        ex.printStackTrace();
      } finally {
        if (rs != null) {
          try {
            rs.close();
          } catch (Exception ex) {}
        }
        if (stat != null) {
          try {
            stat.close();
          } catch (Exception ex) {}
        }
        if (con != null) {
          try {
            con.close();
          } catch (Exception ex) {}
        }
      }
    }
}

public synchronized Analyzer getAnalyzer() {
    return new PaodingAnalyzer();
}

private synchronized void Index(ResultSet rs) {// 通过结果集就可以获得数据源了
    try {
      IndexWriter writer = new IndexWriter(indexPath, getAnalyzer(), true, IndexWriter.MaxFieldLength.UNLIMITED);
      writer.setMaxFieldLength(10000000);
      Date start = new Date();
      int index = 1;
      while (rs.next()) {
        Document doc = new Document();// 一个文档相当与表的一条记录
        doc.add(new Field("id", rs.getString("id"), Field.Store.YES, Field.Index.NOT_ANALYZED));// 字段id放的是数据库表中的id，lucene的一条记录的一个字段下的数据可以放多个值，这点与数据库表不同
        doc.add(new Field("subject", rs.getString("subject"), Field.Store.YES, Field.Index.ANALYZED));
        doc.add(new Field("content", rs.getString("content"), Field.Store.YES, Field.Index.ANALYZED));
        writer.addDocument(doc);
        if (index++ == 1000) {
          writer.commit();
          index = 0;
        }
      }
      writer.commit();
      writer.optimize();// 优化
      writer.close();// 一定要关闭，否则不能把内存中的数据写到文件
      Date end = new Date();
      System.out.println("重建索引成功！！！！" + "用时" + (end.getTime() - start.getTime()) + "毫秒");
    } catch (IOException e) {
      System.out.println(e);
    } catch (SQLException e) {
      System.out.println(e);
    }
}

public void IndexSingle(long id, String subject, String content) {// 通过结果集就可以获得数据源了
    synchronized (indexPath) {
      try {
        IndexWriter writer = new IndexWriter(indexPath, getAnalyzer(), false, IndexWriter.MaxFieldLength.UNLIMITED);
        writer.setMaxFieldLength(10000000);
        Date start = new Date();
        Document doc = new Document();// 一个文档相当与表的一条记录
        doc.add(new Field("id", Long.toString(id), Field.Store.YES, Field.Index.NOT_ANALYZED));// 字段id放的是数据库表中的id，lucene的一条记录的一个字段下的数据可以放多个值，这点与数据库表不同
        doc.add(new Field("subject", subject, Field.Store.YES, Field.Index.ANALYZED));
        doc.add(new Field("content", content, Field.Store.YES, Field.Index.ANALYZED));
        writer.addDocument(doc);
        // writer.optimize();// 优化
        writer.close();// 一定要关闭，否则不能把内存中的数据写到文件
        Date end = new Date();
        System.out.println("索引建立成功！！！！" + "用时" + (end.getTime() - start.getTime()) + "毫秒");
      } catch (IOException e) {
        System.out.println(e);
      }
    }
}

/**
   * 最主要的搜索方法。
   * 
   * @param queryString
   * @return
   */
public List<Long> seacherIndex(String queryString) {// 根据关键字搜索
    try {
      IndexSearcher isearcher = new IndexSearcher(indexPath);
      /* 下面这个表示要同时搜索这两个域，而且只要一个域里面有满足我们搜索的内容就行 */
      BooleanClause.Occur[] clauses = { BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD };
      TopDocCollector collector = new TopDocCollector(10);
      Query query = MultiFieldQueryParser.parse(queryString, new String[] { "subject", "content" }, clauses, getAnalyzer());
      isearcher.search(query, collector);
      ScoreDoc[] hits = collector.topDocs().scoreDocs;
      List<Long> rtn = new ArrayList<Long>();
      Long id;
      int docId;
      for (int i = 0; i < hits.length; i++) {
        docId = hits[i].doc;
        Document doc = isearcher.doc(docId);
        id = Long.parseLong(doc.get("id").trim());
        if (!rtn.contains(id)) {
          rtn.add(id);
        }
      }
      isearcher.close();
      return rtn;
    } catch (Exception e) {
      e.printStackTrace();
      return null;
    }
}
}

分享到：

Lucene 2.4更新索引的方法(Update Index) | Lucene 搜索方式

2009-11-07 16:30
浏览 1408
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

庖丁解牛源码 for Lucene 2.4: 《庖丁解牛源码 for Lucene 2.4》是一份针对开源全文搜索引擎Lucene 2.4版本的深度解析资料。这个压缩包包含的文件名为"paoding-for-lucene-2.4"，很可能是针对中文处理的Paoding Lucene库的源代码分析或扩展。...

DeepSeek与AI幻觉-清华大学团队制作: DeepSeek与AI幻觉-清华大学团队制作一、什么是AI幻觉（定义与基础概念）二、DeepSeek为什么会产生幻觉（聚焦特定AI模型的幻觉成因分析）三、AI幻觉评测（评估AI幻觉的频率、类型与影响的方法）四、如何减缓AI幻觉（解决方案与技术优化方向）五、AI幻觉的创造力价值（探讨幻觉在创新场景中的潜在益处，如艺术生成、灵感激发等）

协同过滤算法商品推荐系统(源码+数据库+论文+ppt)java开发springboot框架javaweb，可做计算机毕业设计或课程设计: 协同过滤算法商品推荐系统(源码+数据库+论文+ppt)java开发springboot框架javaweb，可做计算机毕业设计或课程设计【功能需求】前台用户可以实现注册登录、商品浏览，在线客服，加入购物车，加入收藏，下单购买，个人信息管理，收货信息管理，收藏管理，评论功能。后台管理员可以进行用户管理、商品分类管理、商品信息管理、订单评价管理、系统管理、订单管理。【环境需要】 1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。 2.IDE环境：IDEA，Eclipse,Myeclipse都可以。 3.tomcat环境：Tomcat 7.x,8.x,9.x版本均可 4.数据库：MySql 5.7/8.0等版本均可；【购买须知】本源码项目经过严格的调试，项目已确保无误，可直接用于课程实训或毕业设计提交。里面都有配套的运行环境软件，讲解视频，部署视频教程，一应俱全，可以自己按照教程导入运行。附有论文参考，使学习者能够快速掌握系统设计和实现的核心技术。

MES系统数字化工厂解决方案.pptx: MES系统数字化工厂解决方案.pptx

MUI调用照片以及裁剪和图库照片上传到服务器: MUI调用照片以及裁剪和图库照片上传到服务器

ChatGPT付费创作系统V3.1.3独立版 WEB端+H5端+小程序端（新增DeepSeek高级通道+新的推理输出格式）: GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序，是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。这是一种基于人工智能技术的问答系统，可以实现智能回答用户提出的问题。相比传统的问答系统，ChatGPT可以更加准确地理解用户的意图，提供更加精准的答案。同时系统采用了最新的GPT3.5接口与GPT4模型，同时还支持型，文心一言，腾讯混元，讯飞星火，通义千问，DeepSeeK，智普等等国内各种大模型，可以更好地适应不同的应用场景，支持站点无限多开，可以说ChatGPT付费创作系统目前国内相对体验比较好的一款的ChatGPT及多接口软件系统。新增接入DeepSeek-R1、DeepSeek-V3（Ollama自部署和第三方均支持）、高级通道增加DeepSeek、支持AI接口输出的reasoning_content字段（新的推理输出格式）、更新模型库、修复导出Excel的bug等功能，优化了云灵Midjourney接口，出图更快更稳定。小程序端变化不大该系统版本测试下来比较完美，老版本升级时数据库结构同步下，同时把原来

基于java的美食点餐管理平台设计的详细项目实例（含完整的程序，GUI设计和代码详解）: 内容概要：本文档详细介绍了一款基于Java技术的美食点餐管理平台的设计与实现。该平台旨在优化传统餐饮行业的服务流程，通过智能化的点餐系统、高效的订单处理、智能库存管理和数据分析等功能，为用户提供便捷高效的点餐体验，并提升餐厅管理效率和服务质量。系统涵盖了前端设计、后端开发、数据库设计等方面，采用了成熟的Java技术和现代Web开发框架，如Spring Boot、Vue.js或React，确保系统的高效性和稳定性。此外，文档还包括详细的用户界面设计、模块实现以及系统部署指南，帮助开发者理解和搭建该平台。适合人群：具备一定的Java编程基础和技术经验的研发人员、IT从业者以及有意开发类似系统的企业和个人。使用场景及目标：①为餐厅提供一个集点餐、订单处理、库存管理于一体的高效平台；②优化传统餐饮服务流程，提升客户服务体验；③利用大数据分析辅助决策，助力餐饮企业精细化运营；④通过集成多种支付方式和其他外部系统，满足多样化的商业需求。其他说明：本项目不仅提供了完整的技术方案和支持文档，还针对实际应用场景提出了多个扩展方向和技术优化思路，旨在引导用户不断迭代和完善该平台的功能和性能。

相场模拟与激光制造技术：选择性激光烧结、激光融覆中的凝固与枝晶生长研究,相场模拟与激光制造技术：选择性激光烧结、激光融覆及凝固过程中的枝晶生长研究,相场模拟选择性激光烧结激光融覆凝固枝晶生长: 相场模拟与激光制造技术：选择性激光烧结、激光融覆中的凝固与枝晶生长研究,相场模拟与激光制造技术：选择性激光烧结、激光融覆及凝固过程中的枝晶生长研究,相场模拟选择性激光烧结激光融覆凝固枝晶生长 ,相场模拟; 选择性激光烧结; 激光融覆; 凝固; 枝晶生长,相场模拟与激光工艺：枝晶生长的凝固过程研究

基于ssh框架开发的厂区管理系统，集成增删改查功能。.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行；功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

关于加强新能源汽车安全管理涉及的法规标准分析.pptx: 关于加强新能源汽车安全管理涉及的法规标准分析.pptx

基于SSM的校园二手交易平台.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

机器学习课程设计——基于AdaBoost的银行用户逾期行为检测.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行；功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

UI+svg+规范设置打包: UI+svg格式

关于乘用车燃料消耗量评价方法及指标强制性国家标准的分析.pptx: 关于乘用车燃料消耗量评价方法及指标强制性国家标准的分析.pptx

openjpeg-1.5.1-18.el7.x64-86.rpm.tar.gz: 1、文件内容：openjpeg-1.5.1-18.el7.rpm以及相关依赖 2、文件形式：tar.gz压缩包 3、安装指令： #Step1、解压 tar -zxvf /mnt/data/output/openjpeg-1.5.1-18.el7.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持：公众号禅静编程坊

FPGA Verilog实现BT656与1120视频协议组帧解帧代码详解：含文档介绍与仿真验证,FPGA Verilog实现BT656与1120视频协议组帧解帧代码详解：含文档介绍与仿真验证,fpga: FPGA Verilog实现BT656与1120视频协议组帧解帧代码详解：含文档介绍与仿真验证,FPGA Verilog实现BT656与1120视频协议组帧解帧代码详解：含文档介绍与仿真验证,fpga verilog实现视频协议bt656和1120组帧解帧代码有文档介绍协议，有mod仿真，matlab代码仿真 ,FPGA; Verilog; BT656协议; 1120组帧解帧代码; 文档介绍; Mod仿真; Matlab代码仿真,FPGA Verilog：实现BT656与1120组帧解帧代码的仿真与文档化研究

基于 RAG 与大模型技术的医疗问答系统(毕设&课设&实训&大作业&竞赛&项目): 基于 RAG 与大模型技术的医疗问答系统，利用 DiseaseKG 数据集与 Neo4j 构建知识图谱，结合 BERT 的命名实体识别和 34b 大模型的意图识别，通过精确的知识检索和问答生成，提升系统在医疗咨询中的性能，解决大模型在医疗领域应用的可靠性问题。.zip项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于 vue+elementUI+springboot 设计的模仿'猪八戒'的服务外包平台.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行；功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

抖音视频带货：行业趋势与营销策略.pptx: 抖音视频带货：行业趋势与营销策略.pptx

西门子动态密码程序：学习随机码生成与指针存储数据，Smartline触摸屏操作指南及编程视频教程,西门子动态密码程序：学习随机码生成与存储数据的智能之旅（视频讲解）,200smart动态密码程序，触摸: 西门子动态密码程序：学习随机码生成与指针存储数据，Smartline触摸屏操作指南及编程视频教程,西门子动态密码程序：学习随机码生成与存储数据的智能之旅（视频讲解）,200smart动态密码程序，触摸屏是smartline，西门子动态密码程序，，随机码的产生，指针用法存储数据，非常适合学习，而且是自己程序，还专门录制了一段视频来讲解编程的思路和画面的操作步骤。 ,200smart动态密码程序; touchscreen: smartline; 西门子动态密码程序; 随机码生成; 指针用法存储数据; 自学编程; 程序录制视频讲解。,西门子动态密码程序：触摸屏Smartline随机码生成与指针存储技术解析

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

庖丁解牛的Lucene 2.4的全文搜索代码

评论

发表评论

相关推荐

布隆过滤器（Bloom Filter）之java实例

Lucene查询语法详解

使用Lucene的Highlighter实现文件摘要的自动提取

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注

Lucene日期排序及组合查询

Lucene中自定义排序的实现

在Lucene中应用poading进行分词

用Lucene实现摘要的高亮点

Lucene日期索引搜索

Lucene 中文引擎，庖丁解牛的辞典参数配置方法

Lucene 2.4更新索引的方法(Update Index)

Lucene 搜索方式

转一篇lucene的使用的文章，写的比较全

最近访客更多访客>>

ICTCLAS 中科院分词系统代码注释中文分词词性标注