记录一下,恩
索引方案:
索引存储方案是数据库里面先存一份,然后生成文章递交建立索引
索引id,标题,不存储正文,查询后依靠返回的id去数据库找文章...(也可以都不存,只保存id,反正要到数据库查询)
建索引的速度:
2G的文本,建立索引大概要半天,这个速度还是能忍受的...反正是异步...用户感觉不到
不过建索引的时候...tomcat占用率有点高...最好本地建好索引传上去,或者慢慢递交建索引的文本...或者调整一下
index的mergeFactor参数之类的
空间占用: (看起来挺省)
1k篇文章 2.8M
5k篇文章 15.2M
2w篇文章 25M
查询速度:
lucene本身有缓存优化的策略,用的是LRU Cache,初始512M,也可以设的更大
从我们网站情况看queryResultCache的hitratio是0.49,documentCache的hitratio是0.77,都挺高的
当然这和业务上引导热门专题的查看有关...
--------------
chenjinlai
2008-03-11
分享到:
相关推荐
- **CJKAnalyzer**:这是一个早期的中文分析器,支持中文双字分词,但实际效果并不理想。 - **ZH_CNAnalyzer**:这是一个针对中文优化的语言分析器,采用基于词典的正向最大匹配分词算法,能够更有效地处理中英文...
此外,确保Java环境的兼容性,避免与系统其他软件冲突,也是保证Lucene正常运行的关键。 总结,Apache Lucene 8.5.1在Windows平台上的应用,不仅为开发者提供了强大的全文检索能力,还带来了性能和功能的提升。通过...
- **Lucene特点**:无需任何服务器支持即可运行,适用于各种规模的应用场景,支持高度定制化的分析器和评分策略等。 - **应用场景**:网站搜索、文档管理系统、企业级搜索解决方案等。 - **安装与配置**:如何...
在压缩包中的"dict"文件,可能包含各种领域或特定环境的字典,这些都是优化分词效果的重要资源。 五、实战应用 在实际开发中,确保所有必要的DLL和文件都已正确配置是至关重要的。在"用到的DLL及文件"中,除了盘古...
- **优化与调整**:根据实际效果,可能需要调整分词策略、评分算法等,以提高搜索质量和速度。 **4. 进阶使用** 除了基础功能,Weblucene还提供了许多高级特性,如布尔查询、短语搜索、模糊匹配、近似搜索等。你...
Lucene 支持设置搜索结果的起始位置和长度,从而实现分页效果。 - 通过设置 `TopDocs` 的 `skipTo` 方法和 `scoreDocs` 的大小,可以实现高效地获取每一页的搜索结果。 4. **Java 使用**: - Lucene 是用 Java ...
《Lucene检索数据库支持中文检索》 Lucene是一个开源的全文检索库,它提供了强大的文本搜索功能,包括索引创建和搜索索引两个...在实际项目中,可以根据需求选择合适的Analyzer来优化中文文本的处理,提升搜索效果。
通过查看和运行这些代码,你可以更直观地了解`Lucene5`与`HanLP`结合的具体实现过程。学习和理解这个示例,将有助于你在实际项目中运用这种组合,提升中文搜索的准确性和效率。 总结来说,`Lucene5`和`HanLP`的结合...
例如,对于查询结果中的关键词,可以将其包裹在 `<font color='blue'>` 和 `</font>` 之间,从而实现蓝色高亮效果。 在 Android 的 WebView 中,这些带有 HTML 标签的文本同样可以被正确解析并展示出来,因此 ...
例如,Lucene的某些类、方法或接口可能在新版本中被废弃或调整,导致旧版的IKAnalyzer无法直接运行。为了解决这些问题,开发者通常需要做以下几点: 1. **升级IKAnalyzer版本**:确保使用的IKAnalyzer版本与Lucene ...
1. **版本匹配**:确保ikanalyzer版本与Lucene和Solr版本兼容,避免因版本不匹配导致的运行错误。 2. **配置文件更新**:在Solr的配置文件中正确引入ikanalyzer,并设置为默认分析器。 3. **异常处理**:在遇到分词...
在实际开发中,你可能需要根据项目需求对这些组件进行调整和优化,比如增加缓存机制以提高检索速度,或者添加更多的预处理步骤以提高检索精度。 总的来说,Spring MVC和Lucene的结合为我们提供了一个强大而灵活的...
1. **索引目录选择**:用户可以直接通过双击运行lukeall-4.7.1.jar文件,启动工具后,选择待查看的Lucene索引目录。这个功能使得开发者无需编写额外的代码就能快速访问到索引信息,极大地提高了工作效率。 2. **...
这是因为随着版本的更新,内部接口或实现可能会发生变化,因此在实际应用中,确保两者版本的一致性至关重要,以免引发运行错误或性能下降。 对于贝叶斯分类算法的应用,Lucene和JE-Analysis可以协同工作,提供基础...
总的来说,这个压缩包提供了一个基础的搜索引擎构建框架,结合了Lucene的早期版本和一个适用于中文的分词工具,可以帮助开发者快速搭建和运行一个简单的全文检索系统。在使用这些组件时,开发者需要具备一定的Lucene...
首先,需要将IKAnalyzer5的jar包导入到项目的lib目录下,确保其与Lucene5的版本相匹配,避免出现类冲突或运行异常。然后,在Lucene的索引创建过程中,设置IKAnalyzer为默认的Analyzer,这样在建立索引时,文档中的...
在实际应用中,`compass+lucene`的组合使得开发者可以轻松地在Java应用中添加全文搜索功能,而无需深入了解搜索引擎的复杂细节。通过 Compass 的 ORM 集成,开发者可以直接在存储在数据库中的对象上执行全文搜索,这...
"基于LUCENE的搜索引擎的设计与实现源代码.rar" 包含了完整的项目源码,你可以通过阅读和运行这些代码来了解每个部分的具体实现。主要文件可能包括: - `Indexer.java`:用于创建和更新索引的类,使用IndexWriter将...
总之,Lucene 作为一个强大的全文检索库,不仅提供了基础的搜索功能,还允许开发者通过定制化实现复杂的搜索逻辑,使其在各种场景下都能发挥出色的效果。通过深入理解和熟练运用 Lucene,我们可以为我们的应用程序...