`
ruvuoai
  • 浏览: 95720 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

.net lucene FAQ

阅读更多
IndexWriter.SetUseCompoundFile(true) 有什么用?

在创建索引库时,会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量,减少同时打开的文件数量。

可以使用 CompoundFileReader 查看 .cfs 文件内容。view plaincopy to clipboardprint?
CompoundFileReader reader = new CompoundFileReader(FSDirectory.GetDirectory("y:\\index", false), "_1oa.cfs");  
 
foreach (string filename in reader.List())  
{  
  Console.WriteLine(filename);  


CompoundFileReader reader = new CompoundFileReader(FSDirectory.GetDirectory("y:\\index", false), "_1oa.cfs");

foreach (string filename in reader.List())
{
  Console.WriteLine(filename);
}IOException "Too many open files" (翻译)

原因:
某些操作系统会限制同时打开的文件数量。

解决方法:
1. 使用 IndexWriter's setUseCompoundFile(true) 创建复合文件,减少索引文件数量。
2. 不要将 IndexWriter's mergeFactor 的值设置过大。尽管这能加快索引速度,但会增加同时打开的文件数量。
3. 如果在搜索时发生该错误,那么你最好调用 IndexWriter.Optimize() 优化你的索引库。
4. 确认你仅创建了一个 IndexSearcher 实例,并且在所有的搜索线程中共用。(原文:"Make sure you only open one IndexSearcher, and share it among all of the threads that are doing searches -- this is safe, and it will minimize the number of files that are open concurently. " 晕~~~,究竟要怎么做? )

为什么搜索不到结果?(翻译)

可能原因:

1. 搜索字段没有被索引。
2. 索引库中的字段没有分词存储,无法和搜索词语进行局部匹配。
3. 搜索字段不存在。
4. 搜索字段名错误,注意字段名称区分大小写。建议对字段名进行常量定义。
5. 要搜索的词语是忽略词(StopWords)。
6. 索引(IndexWriter)和搜索(IndexSearcher)所使用的 Analyzer 不同。
7. 你所使用的 Analyzer 区分大小写。比如它使用了 LowerCaseFilter,而你输入的查询词和目标大小写不同。
8. 你索引的文档(Document)太大。Lucene 为避免造成内存不足(OutOfMemory),缺省仅索引前10000个词语(Term)。可以使用 IndexWriter.setMaxFieldLength() 调整。
9. 确认在搜索前,目标文档已经被添加到索引库。
10. 如果你使用了 QueryParser,它可能并没有按照你所设想的去分析 BooleanQuerySyntax。

如果还不行,那么:

1. 使用 Query.ToString() 查看究竟搜索了些什么。
2. 使用 Luke 看看你的索引库究竟有什么。

TooManyClauses Exception (翻译)

使用 RangeQuery, PrefixQuery, WildcardQuery, FuzzyQuery 等类型时可能会引发该异常。比如我们使用 "ca*" 来搜索 "car" 和 "cars",由于搜索结果文档(Document)所包含的 Term 超出 Lucene 默认数量限制 (默认1024),则会引发 TooManyClauses 异常。解决方法:

1. 使用 Filter 替换引发异常的 Query,比如使用 RangeFilter 替换 RangeQuery 搜索 DateField 就不会引发 TooManyClauses 异常。你可以使用 ConstantScoreQuery 像 Query 那样执行 Filter。第一次使用 Filters 时速度要比 Queries 慢一点,但我们可以使用 CachingWrapperFilter 进行缓存。
2. 使用 BooleanQuery.setMaxClauseCount() 加大 Terms 数量,当然这会增加内存占用。使用 BooleanQuery.setMaxClauseCount(int.MaxValue) 会避开任何限制。
3. 还有一个解决方法是通过缩小字段数据精度来达到减少索引中 Terms 数量的目的。例如仅保存 DateField 中的 "yyyymmddHHMM"(可以使用 Lucene 1.9 版本中的 DateTools)。

通配符

Lucene 支持英文 "?" 和 "*" 通配符,但不能放在单词首位。

QueryParser 是线程安全的吗?

不是。

MaxDoc() 和 DocCount()、NumDocs() 有什么不同?

MaxDocs() 表示索引库中最大的 Document ID 号,由于中间的某些 Document 可能被删除,因此不能使用 MaxDocs() 来表示 Document 数量。IndexWriter.DocCount()、IndexReader.NumDocs()、IndexSearcher.Reader.NumDocs() 都表示索引库中 Document 数量。

为什么同时进行搜索和更新会引发 FileNotFoundException 异常?(翻译)

可能原因:
1. 某个搜索或更新对象禁用了锁。
2. 搜索和更新使用了不同的 lockDir。
3. 索引库被存放在 NFS (or Samba) 文件系统上。

尽管搜索是只读操作,但 IndexSeacher 为了获取索引文件列表,也必须打开时锁定索引库。如果锁没有正确设置,那么它将取回一个错误的文件列表(此时 IndexWriter 可能正在添加或优化索引),从而导致该异常发生。

索引文件有大小限制吗?(翻译)

某些 32 位操作系统限制每个文件不能大于 2GB。

解决方法:
1. 使用 IndexWriter.setMaxMergeDocs() 减小 MaxMergeDocs 数值。
2. 使用多个索引库。

什么是 Segments ?(翻译)

索引库中每个索引文件都是由多个 Segments 组成。当你添加一个 Document 到索引库,那么就可能会创建一个新的 Segment。你可以使用 Optimize() 来压缩索引库以减少 Segments 数量。

write.lock 有什么用?哪些类会用到它?(翻译)

write.lock 用来协调索引库的并发修改处理。
当 IndexWriter 打开索引库,或者 IndexReader 删除文档时都将创建该锁。

commit.lock 文件有什么用?哪些类会用到它?(翻译)

commit.lock 在调整索引库 segments 文件内容时使用。 IndexReader 和 IndexWriter 都会使用到它。

"Lock obtain timed out." 错误。在哪删除锁文件?(翻译)

一般存放在系统临时目录(System.IO.Path.GetTempPath()),也可以在 app.config/web.config 中手工设置。可以手工进行删除,或者使用 "IndexReader.isLocked"、"IndexReader.unlock" 进行自动判断和删除操作。view plaincopy to clipboardprint?
FSDirectory.cs  
public static readonly System.String LOCK_DIR = SupportClass.AppSettings.Get("Lucene.Net.lockDir", System.IO.Path.GetTempPath()); 

FSDirectory.cs
public static readonly System.String LOCK_DIR = SupportClass.AppSettings.Get("Lucene.Net.lockDir", System.IO.Path.GetTempPath());app.config / web.configview plaincopy to clipboardprint?
<configuration>  
  <appSettings>  
    <add key="Lucene.Net.lockdir" value="c:\index" />  
  </appSettings>  
</configuration> 

<configuration>
  <appSettings>
    <add key="Lucene.Net.lockdir" value="c:\index" />
  </appSettings>
</configuration>如何更新已经索引的文档? (翻译)

你只能先删除,然后添加更新后的文档。

使用 IndexWriter.addIndexes(IndexReader[]) 和 IndexWriter.addIndexes(Directory[]) 合并索引库有什么不同? (翻译)

使用 Directory[] 参数所需的文件句柄和内存较小,索引文件仅需打开一次,而使用 IndexReader[] 参数则需要打开所有的索引库。
分享到:
评论

相关推荐

    .Net Lucene+盘古分词站内搜索

    在.NET环境中,我们可以使用Lucene.NET,它是Lucene的.NET版本,完全实现了Lucene的所有核心功能,包括索引、查询、评分等。Lucene.NET以其高性能、灵活性和可扩展性,被广泛应用于各种搜索场景。 接下来,盘古分词...

    .NET lucene 源代码

    后来,为了满足.NET开发者的需求,推出了.NET版本的Lucene,即Lucene.NET。它是一个高性能、可扩展的全文检索库,能够帮助开发者构建功能强大的搜索引擎。 Lucene.NET主要包含以下几个核心组件: 1. 分析器...

    Lucene.net搜索

    **Lucene.NET 搜索:深度解析与应用** **一、Lucene.NET 简介** Lucene.NET 是 Apache Software Foundation 开发的一个开源全文检索库,它是 Lucene 的 .NET 版本,为 .NET 平台提供了强大的文本搜索功能。Lucene...

    lucene、lucene.NET详细使用与优化详解

    《lucene、lucene.NET 详细使用与优化详解》 lucene 是一个广泛使用的全文搜索引擎库,其.NET版本称为lucene.NET,它提供了强大的文本检索和分析能力,适用于各种场景下的全文搜索需求。lucene 并非一个可以直接...

    Lucene.Net +盘古分词 搜索引擎

    在VS2012环境下开发Lucene.Net + 盘古分词的搜索引擎,首先需要安装Lucene.Net的NuGet包,并确保与项目的.NET版本兼容。然后,导入盘古分词库,可以通过下载源码编译或寻找预编译的DLL文件。在项目中,你需要创建...

    Lucene.net的四个版本(更新至2018.1.26 )

    基于Lucene.net的四个版本(更新至2018.1.26 ) ------------------------------- Lucene.Net.2.9.2.2-支持.net2.0和4.0; Lucene.Net.2.9.4.1 仅支持.net4.0; Lucene.Net.3.0.3 z支持3.5和4.0; Lucene.Net.4.8.0-...

    Lucene.Net

    **Lucene.Net** 是一个基于Java的全文搜索引擎库,它被移植到了.NET平台,为.NET开发者提供了强大的文本搜索功能。这个库是开源的,由Apache软件基金会维护,遵循Apache许可证,允许开发人员自由使用和修改代码。 ...

    lucene.NET 中文分词

    **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

    lucene.net 2.9.1 源码

    《深入剖析Lucene.NET 2.9.1:源码解析与应用开发》 Lucene.NET 2.9.1是开源搜索引擎库Lucene的.NET版本,它为.NET开发者提供了强大的全文检索和索引功能。这个版本的源码提供了一个宝贵的资源,帮助我们理解其内部...

    lucene.NET使用教程整合

    lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合 lucene.NET使用教程整合

    lucene.net 完全入门教程

    lucene.net 完全入门教程,包括 lucene.net 介绍, lucene.net工作模式, lucene.net分词方法和中文分词方法, lucene.net索引的建立详解, lucene.net搜索详解, lucene.net的下载方法, lucene.net搜索结果实现...

    Lucene.Net的DLL

    标题提到的"Lucene.Net的DLL"是指基于.NET平台的全文搜索引擎库——Lucene.Net。这个库是Apache Lucene项目的一个移植版本,专为.NET Framework和.NET Core开发者设计,提供了强大的文本检索和搜索功能。Lucene.Net...

    Lucene.net学习帮助文档

    **Lucene.net学习帮助文档** Lucene.net是一个开源全文搜索引擎库,它是Apache Lucene项目的一部分,专门针对.NET Framework进行了优化。这个压缩包包含了Lucene.net的源码和中文学习文档,旨在帮助开发者深入理解...

    Lucene.net 3.03 最新版本下载

    Lucene.net下载 Lucene.net3.03,最新版的Lucene.net下载。

    Lucene.NET

    Lucene.NET是一个基于Apache Lucene的开源搜索引擎库,专门为.NET Framework和.NET Core平台设计。这个强大的全文检索库提供了高效、可扩展的搜索功能,使得开发者能够轻松地在他们的应用程序中集成复杂的搜索功能。...

    Lucene.Net.dll

    《深入解析Lucene.Net.dll:2.9.2版本的核心技术》 在信息化时代,搜索引擎已经成为数据检索不可或缺的工具,而Lucene.Net.dll正是.NET平台上的一款强大、高效的全文搜索引擎库。作为Apache Lucene项目的一部分,...

    Lucene.Net_2_9_1.zip

    《深入探索Lucene.Net 2.9.1:搜索引擎的核心技术》 Lucene.Net是一个开源、高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。此官方版的Lucene.Net_2_9_1.zip包含了丰富的实例,为我们提供了深入...

    Lucene.Net2.3源码,最新版

    **Lucene.Net 2.3 源码详解** Lucene.Net 是 Apache Lucene 的 .NET 实现,它是一个高性能、全文本搜索库,适用于 .NET 开发者。这个版本是 2.3,是最新的版本,包含了丰富的功能和优化。通过分析其源码,我们可以...

    使用Lucene.net进行全文搜索

    Lucene.NET是Apache Lucene项目的一个.NET版本,它提供了一个高效、可扩展的全文搜索库,适用于各种应用程序。本文将深入探讨如何使用Lucene.NET进行全文搜索,特别是针对多关键字匹配的场景。 首先,我们需要了解...

    Lucene.net 2.0 API + DLL 下载

    另外,`Lucene.Net-2.0.doc.zip`文件可能包含的是关于Lucene.NET 2.0的文档资料,可能包括API参考、用户指南、示例代码等,对于学习和掌握这个版本的API非常有帮助。通过阅读这些文档,开发者可以理解如何初始化搜索...

Global site tag (gtag.js) - Google Analytics