Lucene - starfeng - ITeye博客

`

starfeng

浏览: 12633 次
性别:
来自: 北京

最近访客更多访客>>

imshou

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (15)

社区版块

存档分类

最新评论

Lucene

lucene 搜索引擎算法 MySQL 数据结构

阅读更多

1. Lucene索引原理
http://blog.csdn.net/geekwang/archive/2008/11/29/3410187.aspx
1) 倒排文件索引结构
2) 关键词, 文章号[出现频率], 出现位置
3) 关键字是按字符顺序排列的（lucene没有使用B树结构），因此 lucene可以用二元搜索算法快速定位关键词
4) 减小索引文件的大小，Lucene 对索引还使用了压缩技术

2. Lucene：基于Java的全文检索引擎简介

http://www.chedong.com/tech/lucene.html

Index

IndexWriter write = new IndexWriter(indexPath, new SimpleAnalyzer(), false);
Document doc = new Document();
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
writer.addDocument(doc);

Search

Searcher searcher = new IndexSearcher(indexPath);
Query query = QueryParser.parse(queryString, "body", new SimpleAnalyzer());
Hits hits = searcher.search(query);
hits.doc(i).get("path")

Merge Index

IndexWriter indexWriter = new IndexWriter(to, sa, false);  
FSDirectory[] fs = { FSDirectory.getDirectory(from, false) };  
indexWriter.addIndexes(fs);  
indexWriter.optimize();

3. 亿级数据的高并发通用搜索引擎架构设计
http://www.kuqin.com/searchengine/20090215/35132.html

Index

信息处理入队列-->

信息写入搜索引擎数据存储层Tokyo Tyrant,异步入MySQL主表作备份, 也写增量表-->

每1分钟对增理表作索引,每3小时合并主索引且清空增量表

Search

查询Sphinx索引服务，取得满足查询条件的搜索引擎唯一ID (类别ID+原数据表主键ID) -->

通过Memcache协议一次性从Tokyo Tyrant中mget取回ID号对应的文本数据

4. 常用的分类算法
支持向量机(SVM),朴素贝叶斯(NB),神经网络(NN),K近邻(KNN),决策树(Decision Tree)

分享到：

查找算法 | HQL

2010-07-01 23:42
浏览 830
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene-4.0.0完整包: **Lucene 4.0.0 全文检索引擎工具包** Apache Lucene 是一个高度成熟、广泛使用的开源全文检索库，由Java编写。作为一款搜索引擎工具包，它提供了核心的索引和搜索功能，使得开发者能够快速地在应用程序中集成强大...

lucene，lucene教程，lucene讲解: lucene，lucene教程，lucene讲解。为了对文档进行索引，Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

Lucene时间区间搜索: Lucene是一款强大的全文搜索引擎库，广泛应用于各种数据检索场景。在C#环境下，利用Lucene进行时间区间搜索是提高数据检索效率和精确度的重要手段。本篇将深入探讨如何在C#中实现Lucene的时间区间查询匹配，以及涉及...

lucene-4.7.0全套jar包: 【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库，由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API，允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...

Lucene3.5源码jar包: 本压缩包包含的是Lucene 3.5.0版本的全部源码，对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说，是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本，它在3.x...

lucene in action 2nd edition, lucene in action 第二版 PDF: 《Lucene in Action 第二版》是一本深入探讨Apache Lucene全文检索库的专业书籍，它在Java开发领域具有很高的权威性。这本书详细介绍了如何利用Lucene进行高效的文本搜索和索引构建，是Java开发者和信息检索爱好者的...

Lucene示例 BM25相似度计算: 在IT领域，搜索引擎技术是至关重要的，而Lucene作为一个开源全文搜索引擎库，广泛应用于各种文本检索系统中。本文将深入探讨Lucene示例中的BM25相似度计算，旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、...

Lucene与关系型数据库对比: 《Lucene与关系型数据库对比：深度解析与应用探索》在信息爆炸的时代，数据管理和检索成为了企业乃至个人日常工作中不可或缺的部分。随着技术的发展，不同的数据处理方式应运而生，其中Lucene与关系型数据库作为两...

计算机专业外文翻译（lucene相关）: "计算机专业外文翻译（lucene相关）" 本文翻译了论文"Scale-up x Scale-out: A Case Study using Nutch/Lucene"，介绍了计算机专业领域中关于Lucene相关的知识点。 Scale-up vs Scale-out 论文中讨论了两个相对...

lucene-core-7.2.1-API文档-中文版.zip: 赠送jar包：lucene-core-7.2.1.jar；赠送原API文档：lucene-core-7.2.1-javadoc.jar；赠送源代码：lucene-core-7.2.1-sources.jar；赠送Maven依赖信息文件：lucene-core-7.2.1.pom；包含翻译后的API文档：lucene...

lucene-core-7.7.0-API文档-中文版.zip: 赠送jar包：lucene-core-7.7.0.jar；赠送原API文档：lucene-core-7.7.0-javadoc.jar；赠送源代码：lucene-core-7.7.0-sources.jar；赠送Maven依赖信息文件：lucene-core-7.7.0.pom；包含翻译后的API文档：lucene...

lucene所有的jar包: 《全面解析Lucene jar包：从基础到应用》在信息技术高速发展的今天，搜索引擎已经成为我们获取信息不可或缺的工具。在Java领域，Lucene作为一个强大的全文搜索引擎库，深受开发者喜爱。本文将详细介绍“lucene所有...

Lucene的原理完整版pdf: **Lucene原理详解** Lucene是一个高性能、全文检索库，由Apache软件基金会开发并维护，是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API，用于索引和搜索文本数据，使得开发者可以轻松地在...

lucene.NET 中文分词: **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库，它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架，Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

Lucene中的FST算法描述: 在信息检索和存储系统中，Lucene是一个开源的全文搜索引擎库，广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项（term），Lucene使用了FST（有限状态转换器，Finite State Transducer）...

chinese_lucene.rar_Lucene C#_Lucene for .net_PanGu4Lucene_lucene: 《深入理解Lucene C#与.NET环境下的应用实践》 Lucene是一款强大的全文搜索引擎库，最初由Apache软件基金会开发，现已成为Apache Lucene项目的一部分。它提供了高效的索引和搜索功能，广泛应用于各类数据检索系统。...

基于lucene技术的增量索引: **基于Lucene技术的增量索引** 在信息技术领域，全文搜索引擎是处理大量数据查询的关键工具。Apache Lucene是一个开源的全文检索库，被广泛应用于构建高效、可扩展的搜索功能。本文将深入探讨如何利用Lucene实现...

C#调用Lucene方法-实现快速搜索: 为了在C#中使用Lucene，我们需要借助.NET上的Lucene.NET，这是一个与Java Lucene兼容的.NET框架版本。接下来，我们探讨C#调用Lucene的步骤： 1. **引入Lucene库**：在C#项目中，首先需要添加对Lucene.NET的引用。...

lucene 对 xml建立索引: ### Lucene对XML文档建立索引的技术解析与实践 #### 一、引言随着互联网技术的迅猛发展，非结构化数据（如XML文档）在企业和组织中的应用日益广泛。如何高效地处理这些非结构化的数据，特别是进行快速检索成为了一...

Global site tag (gtag.js) - Google Analytics