lucene分词会不会增大索引文件 - ITeye问答

问答首页 → Java企业应用

0 0

lucene分词会不会增大索引文件0

我知道lucene可以分词索引和不分词索引。我想知道是哪个占用的空间会比较大？非常感谢。目前测试的结果是不分词的结果会小一点。不知道真的是不是这样。

2013年10月29日 23:56

xchd
4
0 1 24

3个答案按时间排序按投票排序

0 0

采纳的答案

切词越细切的词越多索也就越大有影响。

2013年11月04日 15:51

Reset
141
0 1 4

添加评论

0 0

分词越细，索引文件越大。因为越细的话，lucene的term越多。想了解下lucene，可以看看《Lucene 原理与代码分析完整版.pdf》

2013年11月07日 14:15

YTDolly
30
0 0 1

添加评论

0 0

我没有仔细比较过，但是我认为做分词与不分词（应该是中文吧）更关键的要素是搜索的准确性（按词索引和按字索引），分词的结果会让搜索的精度提高，至于索引文件的大小，我没有测试过，应该不会有大的影响吧。

2013年10月30日 08:30

鳄鱼旭
248
0 0 17

添加评论

相关推荐

中文搜索分词lucene包+paoding包: - **扩展性**：随着数据量的增长，可能需要考虑分布式索引和搜索，这可以通过Lucene的分布式解决方案如Solr或Elasticsearch来实现。 - **错误处理和日志记录**：在处理大量数据时，应确保有良好的错误处理机制，...

基于Lucene索引的分析与实现: 创建索引时，Lucene会读取输入文档，进行分词处理，然后为每个词创建倒排索引。搜索时，用户输入的查询会被转换成词项列表，然后Lucene会查找这些词项在索引中的对应信息，通过评分算法确定相关性，最终返回最相关的...

基于Lucene的中文分词方法设计与实现: ### 基于Lucene的中文分词方法设计与实现 #### 一、引言随着信息技术的迅猛发展，互联网上的信息量呈爆炸性增长，有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国，由于中文语言的特殊性（如没有...

如何将Lucene索引写入Hadoop？: 然而，当数据量增大到需要分布式处理的程度时，就需要将Lucene索引分布到多台机器上，这就涉及到Hadoop。 Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供了一个分布式文件系统...

lucene1.0.doc: **Lucene分词的原理与种类** Lucene的分词原理主要包括以下几种方法： 1. 基于字符串匹配的分词方法：通过预定义的分隔符，如空格、标点符号来切分文本。 2. 基于理解的分词方法：考虑词汇的上下文信息，如词性标注...

c# Lucene.net 原理代码分析加强版: 随着索引的增长，Lucene.net会自动合并小的索引段，以减少磁盘访问次数，提高搜索性能。合并策略决定了哪些段应该被合并，以及何时进行合并。合并过程涉及到旧段的读取、新段的写入以及删除标记的更新。这一过程需要...

lucene4.0+ik: 2. **导入依赖**：在你的项目中，添加`lucene-core-3.6.0.jar`和`IKAnalyzer2012FF_u1.jar`两个库文件，它们分别提供了Lucene的核心功能和IKAnalyzer的分词服务。 3. **创建索引**：使用Lucene提供的API，编写代码...

Java全文检索引擎Lucene的应用.pdf: 2. **高效的索引机制**：Lucene在传统全文检索引擎的倒排索引基础上，实现了分块索引的功能，能够针对新的文件快速建立索引，并通过与原有索引合并的方式进行优化。 3. **面向对象的设计**：Lucene采用了面向对象的...

lucene word ppt excel pdf全文检索: 总结，利用Apache Lucene实现对Word、PPT、Excel、PDF和TXT等文件的全文检索，需要经过文件解析、内容提取、分词、索引构建、查询解析、搜索匹配、结果排序和展示等多个环节。这一过程涉及到了文件处理、文本分析和...

Lucene实战: Lucene包含了分词器（Tokenizer）、分析器（Analyzer）和搜索器（Searcher）等组件，能够处理多种语言和格式的文本。 2. **索引过程** 创建一个有效的索引是Lucene工作的关键步骤。索引过程中，文本被分析成单独的...

lucene的jar包，欢迎下载: 1. **索引构建**：Lucene首先需要对文本数据进行索引，这个过程包括分词、词干提取、去除停用词等预处理步骤，然后将这些经过处理的词项存储在倒排索引中，以便快速查找。 2. **文档表示**：在Lucene中，每个文档都...

新Lucene的整理: 1. **性能优势**：Lucene使用文件索引，搜索速度比数据库查询更快，尤其在处理大量数据时。 2. **静态网页支持**：许多网站已将内容静态化，Lucene可以直接对生成的文件建立索引，减轻数据库压力。 3. **灵活的分词...

最新版windows lucene-8.11.0.zip: - **硬件需求**：随着数据量的增长，索引和搜索可能会对硬件性能提出更高要求。 - **分词准确性**：不同语言的分词策略不同，选择合适的分词器对搜索结果至关重要。 - **性能调优**：根据实际应用场景调整Lucene...

Lucene in action配套源代码: 1. **索引构建**：展示了如何使用Lucene来读取和索引文本数据，包括从文件系统、数据库或其他数据源中抽取内容，并将其转换为可供搜索的索引结构。这通常涉及到分析器（Analyzer）的选择，如标准分析器、中文分词器...

lucene-6.4.0.zip: Lucene的索引过程包括分词、词干提取、停用词过滤等步骤，确保了搜索结果的相关性。在6.4.0版本中，Lucene可能对这些步骤进行了优化，提升了索引质量和速度。 1. 分词：Lucene使用了高性能的分词器，能够处理各种...

基于lucene的去词、禁词、搜索等操作: Lucene支持多种数据源，如文件、数据库等，且可以集成到各种应用程序中，如网站、企业内部系统等。二、文本预处理：去词在建立索引前，文本通常需要经过预处理，去词（也称为分词）是其中的重要步骤。去词是指将...

Lucene 3.0 原理与代码分析: 除了索引过程和文件格式，Lucene还涉及到许多其他重要的知识点，包括但不限于：查询语言的构建、搜索结果的排序和过滤、索引的优化策略、以及如何在不同的应用场景中使用Lucene。 Lucene的高效性和灵活性使其成为...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics