lucene对要解析的内容方面的限制及注意事项 - 学习笔记 - ITeye博客

`

gflei

浏览: 279384 次
性别:
来自: 北京

最近访客更多访客>>

hhjgw

初七是只猫

zxhandyou110

726681665

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

somefuture：为何有文章说asyncAppdender不支持J2ee容器ht ...
log4j 日志异步化AsyncAppender 大幅提升系统性能
model2012：你用adt跑的吧，android里面是不能直接运行main方法 ...
JVM崩溃：Current thread JavaThread "CompilerThread1" daemon [_thre
di1984HIT：不错。学习了啊
.rmi.ConnectException: Connection refused to host: 127.0.0.1来龙去脉
gygwoaini：还有可能是第3个问号没给值
索引中丢失 IN 或 OUT 参数:: 3
fool2011：多谢
索引中丢失 IN 或 OUT 参数:: 3

lucene对要解析的内容方面的限制及注意事项

博客分类：

Lucene

阅读更多

对内容长短的限制：

主要目的是防止内部不足而产生的内存泄露问题。只要内存足够大，这个值可以设置成Integer.MAX_VALUE,能覆盖目前可能的文档大小。

参考内容：

Documents are truncated by default

The indexer by default truncates documents to IndexWriter.DEFAULT_MAX_FIELD_LENGTH or 10,000 terms in Lucene 2.0.

Rule of thumb: an average page of English text contains about 250 words. (Source: Google Answers.) This means only about 40 pages are indexed by default. If any of your documents are longer than this (and you want them indexed in full), you should raise the limit with IndexWriter.setMaxFieldLength().

public void setMaxFieldLength(int maxFieldLength)

The maximum number of terms that will be indexed for a single field in a document. This limits the amount of memory required for indexing, so that collections with very large files will not crash the indexing process by running out of memory. This setting refers to the number of running terms, not to the number of different terms.

Note: this silently truncates large documents, excluding from the index all terms that occur further in the document. If you know your source documents are large, be sure to set this value high enough to accomodate the expected size. If you set it to Integer.MAX_VALUE, then the only limit is your memory, but you should anticipate an OutOfMemoryError.

By default, no more than DEFAULT_MAX_FIELD_LENGTH terms will be indexed for a field.

分享到：

lucene消耗内存的相关点 | 使用jconsole的前提条件

2010-10-13 22:43
浏览 1115
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene3.0创建索引: - `new StandardAnalyzer(Version.LUCENE_30)`：这里使用了标准分析器，用于对文档内容进行分析。 - `true`：指示要创建新的索引。 - `IndexWriter.MaxFieldLength.UNLIMITED`：设置字段长度无限制。 3. **添加...

Lucene学习例子与文档: 5. **README.txt**：这个文件通常包含项目的简要说明、使用指南或者注意事项，对于初学者来说是了解项目的好入口。 6. **META-INF**：这是一个标准的Java归档（JAR）文件夹，可能包含了Lucene库的元数据，例如类...

也谈架构：百万pv项目与虚拟化: 本文将从架构设计和虚拟化两个方面对百万PV项目进行分析和总结。我们将讨论项目的架构设计、虚拟化的必要性、虚拟化后的服务器数量和资源分配，以及虚拟化注意事项。架构设计本项目的架构设计分为五层：CDN层、...

阿里云专有云企业版 V3.12.0 阿里云Elasticsearch 技术白皮书（on ECS） 20200619.pdf: 阿里云Elasticsearch技术白皮书为企业提供了一个在ECS上部署和管理Elasticsearch的综合指南，涵盖了产品特性、技术优势、使用注意事项和法律条款，旨在帮助企业高效、安全地利用Elasticsearch进行大数据处理和分析。

阿里云专有云企业版 V3.6.1 Elasticsearch 产品简介 - 20181105.pdf: - **警告和注意事项**: 文件中用不同级别的警示信息提醒用户潜在风险和操作指南。 - **文档更新**: 阿里云会定期更新文档，用户应保持关注并使用最新版。 - **知识产权**: 文档内容受阿里云的知识产权保护，未经...

elasticSearch6安装教程.docx: Elasticsearch 是一个开源的全文搜索引擎，它基于 Lucene 库，但提供了更高级别的API和分布式、容错性的功能。在Elasticsearch 6版本中，...遵循上述步骤和注意事项，可以有效地在Linux上部署和管理Elasticsearch实例。

IKAnalyzer2012_u3.zip: 2. `Readme-说明.htm`：通常包含软件的使用指南、注意事项和更新日志，用户可以通过阅读此文件了解如何安装和使用IKAnalyzer2012_u3。 3. `IKAnalyzer2012.jar`：核心库文件，包含了IKAnalyzer2012_u3的Java类和...

elk服务入门快速搭建: - **Filter：**对日志进行处理，如解析、富集等。 - **Output：**将处理后的日志发送到Elasticsearch或其他目标。 **2.2 Elasticsearch** - **定义：**Elasticsearch是一个分布式的、基于Lucene的搜索引擎，能够...

Cuyahoga源码: Releasenotes.txt、Install.txt、Install-binary.txt、Upgrade.txt这些文本文件提供了关于安装、升级和使用Cuyahoga的详细步骤和注意事项，是开发者开始研究项目前的重要参考资料。例如，Releasenotes.txt通常会列出...

elasticsearch 插件: 注意事项 - **兼容性**：确保所选插件与Elasticsearch的版本兼容，否则可能导致运行错误或功能异常。 - **资源消耗**：部分插件可能增加ES的内存和CPU使用，安装前需评估对集群性能的影响。 - **许可证**：某些...

solr文档solr文档: 在"Solr注意.txt"文件中，可能会包含一些使用Solr过程中需要注意的事项或最佳实践，例如避免使用不推荐的配置选项，或是对特定功能的限制和警告。 "archives"可能是一个包含历史版本或备份的目录，对于跟踪Solr的...

elasticsearch-head 1.0.8.zip: **使用技巧与注意事项** 1. 为了安全起见，建议在生产环境中限制对 Elasticsearch-Head 的访问，可以通过配置防火墙规则或设置 Elasticsearch 的 IP 白名单。 2. 当集群中节点数量较大时，可能需要一段时间加载所有...

elasticsearch-head-chrome-master.rar: 1. **安全考虑**：由于Elasticsearch Head提供了对集群的直接访问，因此在生产环境中使用时，务必确保只在安全网络环境下操作，并限制不必要的网络访问。 2. **版本兼容性**：确保Elasticsearch Head的版本与你的...

solr4.7在tomcat6中部署: ### Solr 4.7 在 Tomcat 6 中部署详细步骤及知识点解析 #### 一、Solr 和 Tomcat 简介 - **Solr**：Apache Solr 是一个高性能、采用 Java 开发的全文搜索引擎。它基于 Lucene 库，支持高度可扩展性而不牺牲性能，...

elasticsearch_fix: ### 使用注意事项 1. **版本兼容性**：确保 Search Guard 版本与 Elasticsearch 版本兼容，否则可能遇到无法运行的问题。 2. **性能影响**：安全功能的启用可能会带来一定的性能开销，需要根据实际需求和硬件资源...

EFK部署方案_20190312_v1.0.docx: #### 三、注意事项 - **版本一致性**: 确保Elasticsearch、Kibana、Filebeat使用的版本保持一致，避免因版本差异导致的问题。 - **安全性**: 在生产环境中部署时，考虑使用HTTPS安全连接，并对敏感数据进行加密处理...

elasticsearch框架的安装: - **配置项注意事项**： - 每行内容顶格写，不允许有前导空格。 - “：”后面必须有一个空格。 - 集群名称必须一致。 - 节点名称自定义。 - 网络配置需指定当前服务器IP地址，端口默认为9200。 - 关闭`...

elasticsearch搭建教程: - **注意事项**：如果选择了较新的版本，可能会遇到文档支持不足的情况。 #### 三、Elasticsearch配置详解 ##### 1. 修改`elasticsearch.yml` 此步骤是配置Elasticsearch的关键之一，通过编辑配置文件可以调整...

Solr.学习文档: - **注意事项**： - 在设计索引结构时，需要考虑到不同集合之间的数据隔离性。 - 确保更新操作只在一个地方发生，避免数据冲突。通过以上介绍可以看出，Solr 不仅提供了强大的搜索功能，还具备灵活的部署和优化...

Global site tag (gtag.js) - Google Analytics