`

lucene对要解析的内容方面的限制及注意事项

阅读更多

对内容长短的限制:

 

主要目的是防止内部不足而产生的内存泄露问题。只要内存足够大,这个值可以设置成Integer.MAX_VALUE,能覆盖目前可能的文档大小。

 

 

参考内容:

Documents are truncated by default

The indexer by default truncates documents to IndexWriter.DEFAULT_MAX_FIELD_LENGTH or 10,000 terms in Lucene 2.0.

Rule of thumb: an average page of English text contains about 250 words. (Source: Google Answers.) This means only about 40 pages are indexed by default. If any of your documents are longer than this (and you want them indexed in full), you should raise the limit with IndexWriter.setMaxFieldLength().



public void setMaxFieldLength(int maxFieldLength)
The maximum number of terms that will be indexed for a single field in a document. This limits the amount of memory required for indexing, so that collections with very large files will not crash the indexing process by running out of memory. This setting refers to the number of running terms, not to the number of different terms.

Note: this silently truncates large documents, excluding from the index all terms that occur further in the document. If you know your source documents are large, be sure to set this value high enough to accomodate the expected size. If you set it to Integer.MAX_VALUE, then the only limit is your memory, but you should anticipate an OutOfMemoryError.

By default, no more than DEFAULT_MAX_FIELD_LENGTH terms will be indexed for a field.


 

 

分享到:
评论

相关推荐

    Lucene3.0创建索引

    - `new StandardAnalyzer(Version.LUCENE_30)`:这里使用了标准分析器,用于对文档内容进行分析。 - `true`:指示要创建新的索引。 - `IndexWriter.MaxFieldLength.UNLIMITED`:设置字段长度无限制。 3. **添加...

    Lucene学习例子与文档

    5. **README.txt**:这个文件通常包含项目的简要说明、使用指南或者注意事项,对于初学者来说是了解项目的好入口。 6. **META-INF**:这是一个标准的Java归档(JAR)文件夹,可能包含了Lucene库的元数据,例如类...

    解密搜索引擎技术实战:Lucene&Java精华版

    - **2.3.7 抓取暗网**:探索了暗网抓取的可能性及注意事项。 - **2.3.8 信息过滤**:讲解了如何过滤无用信息,提高爬取效率。 - **2.3.9 最好优先遍历**:介绍了高效遍历网页的策略。 - **2.4 存储URL地址**: -...

    也谈架构:百万pv项目与虚拟化

    本文将从架构设计和虚拟化两个方面对百万PV项目进行分析和总结。我们将讨论项目的架构设计、虚拟化的必要性、虚拟化后的服务器数量和资源分配,以及虚拟化注意事项。 架构设计 本项目的架构设计分为五层:CDN层、...

    阿里云 专有云企业版 V3.12.0 阿里云Elasticsearch 技术白皮书(on ECS) 20200619.pdf

    阿里云Elasticsearch技术白皮书为企业提供了一个在ECS上部署和管理Elasticsearch的综合指南,涵盖了产品特性、技术优势、使用注意事项和法律条款,旨在帮助企业高效、安全地利用Elasticsearch进行大数据处理和分析。

    阿里云 专有云企业版 V3.6.1 Elasticsearch 产品简介 - 20181105.pdf

    - **警告和注意事项**: 文件中用不同级别的警示信息提醒用户潜在风险和操作指南。 - **文档更新**: 阿里云会定期更新文档,用户应保持关注并使用最新版。 - **知识产权**: 文档内容受阿里云的知识产权保护,未经...

    IKAnalyzer2012_u3.zip

    2. `Readme-说明.htm`:通常包含软件的使用指南、注意事项和更新日志,用户可以通过阅读此文件了解如何安装和使用IKAnalyzer2012_u3。 3. `IKAnalyzer2012.jar`:核心库文件,包含了IKAnalyzer2012_u3的Java类和...

    elk服务入门快速搭建

    - **Filter:**对日志进行处理,如解析、富集等。 - **Output:**将处理后的日志发送到Elasticsearch或其他目标。 **2.2 Elasticsearch** - **定义:**Elasticsearch是一个分布式的、基于Lucene的搜索引擎,能够...

    Cuyahoga源码

    Releasenotes.txt、Install.txt、Install-binary.txt、Upgrade.txt这些文本文件提供了关于安装、升级和使用Cuyahoga的详细步骤和注意事项,是开发者开始研究项目前的重要参考资料。例如,Releasenotes.txt通常会列出...

    elasticsearch 插件

    注意事项 - **兼容性**:确保所选插件与Elasticsearch的版本兼容,否则可能导致运行错误或功能异常。 - **资源消耗**:部分插件可能增加ES的内存和CPU使用,安装前需评估对集群性能的影响。 - **许可证**:某些...

    solr文档solr文档

    在"Solr注意.txt"文件中,可能会包含一些使用Solr过程中需要注意的事项或最佳实践,例如避免使用不推荐的配置选项,或是对特定功能的限制和警告。 "archives"可能是一个包含历史版本或备份的目录,对于跟踪Solr的...

    elasticsearch-head 1.0.8.zip

    **使用技巧与注意事项** 1. 为了安全起见,建议在生产环境中限制对 Elasticsearch-Head 的访问,可以通过配置防火墙规则或设置 Elasticsearch 的 IP 白名单。 2. 当集群中节点数量较大时,可能需要一段时间加载所有...

    elasticsearch-head-chrome-master.rar

    1. **安全考虑**:由于Elasticsearch Head提供了对集群的直接访问,因此在生产环境中使用时,务必确保只在安全网络环境下操作,并限制不必要的网络访问。 2. **版本兼容性**:确保Elasticsearch Head的版本与你的...

    微信公众平台应用开发:方法、技巧与案例.(机械工业.柳峰)

     8.1.3 图文消息使用注意事项 201  8.2 公众账号无响应的处理 202  8.2.1 公众账号无响应的几种情况 202  8.2.2 计算字符串所占字节数 202  8.3 应用开发最佳实践 204  8.3.1 解析消息创建时间 204  ...

    solr4.7在tomcat6中部署

    ### Solr 4.7 在 Tomcat 6 中部署详细步骤及知识点解析 #### 一、Solr 和 Tomcat 简介 - **Solr**:Apache Solr 是一个高性能、采用 Java 开发的全文搜索引擎。它基于 Lucene 库,支持高度可扩展性而不牺牲性能,...

    OpenCms中文指南

    - 站点配置注意事项。 ##### 3.4 创建JSP模版 - **创建过程**: - **创建模块**: 定义页面元素。 - **创建模版**: 组合模块形成完整的页面设计。 - **实践要点**: - 模块化设计原则。 - JSP语法基础。 - 模版...

    elasticsearch_fix

    ### 使用注意事项 1. **版本兼容性**:确保 Search Guard 版本与 Elasticsearch 版本兼容,否则可能遇到无法运行的问题。 2. **性能影响**:安全功能的启用可能会带来一定的性能开销,需要根据实际需求和硬件资源...

    EFK部署方案_20190312_v1.0.docx

    #### 三、注意事项 - **版本一致性**: 确保Elasticsearch、Kibana、Filebeat使用的版本保持一致,避免因版本差异导致的问题。 - **安全性**: 在生产环境中部署时,考虑使用HTTPS安全连接,并对敏感数据进行加密处理...

Global site tag (gtag.js) - Google Analytics