lucene中特殊字符的转译问题 - John_wu - ITeye博客

`

John_wu

浏览: 8864 次
性别:
来自: 深圳

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (2)

社区版块

存档分类

2006-11 ( 2)
更多存档...

最新评论

抛出异常的爱： deafwolf 写道抱歉，我没从你的代码中看出单态的所在对 ...
我的处女贴：连接池释放连接异常！
John_wu：抛出异常的爱写道方法一用单例．．方法二用池才能不溢出Ｐ ...
我的处女贴：连接池释放连接异常！
抛出异常的爱：方法一用单例．．方法二用池才能不溢出ＰＳ：你用的单例是错 ...
我的处女贴：连接池释放连接异常！
deafwolf：多线程你加锁啊，再包一层就能处理多线程么
我的处女贴：连接池释放连接异常！
John_wu： deafwolf 写道理由何在？因为就算这个类已经是单例了，但 ...
我的处女贴：连接池释放连接异常！

lucene中特殊字符的转译问题

lucene 搜索引擎 Apache JSP

阅读更多

小弟用lucene2.0做了一个搜索引擎的项目，基本功能没有问题，但是在特殊字符的转译上出了一些问题，如括号：()，按照网上说的方法'\('根本JSP编译就不能通过，于是换Unicode码'\u0028'，结果后台直接抛错：

org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, col
umn 1.
Was expecting one of:
    <NOT> ...
    "+" ...
    "-" ...
    "(" ...
    <QUOTED> ...
    <TERM> ...
    <PREFIXTERM> ...
    <WILDTERM> ...
    "[" ...
    "{" ...
    <NUMBER> ...

        at org.apache.lucene.queryParser.QueryParser.generateParseException(Quer
yParser.java:1226)

不知道大家有没有遇到过类似的情况，比如要匹配：'中国(北京)'

分享到：

我的处女贴：连接池释放连接异常！

2006-11-24 10:45
浏览 2707
评论(2)
论坛回复 / 浏览 (2 / 4442)
查看更多

评论

2 楼 John_wu 2006-11-24

lighter 写道

lucene没有用过,了解过
前一排用过compass,觉得更好用,
帮顶...

谢谢lighter帮顶，个人感觉lucene还是蛮好用的，只是没有太多的时间去研究，总是在赶项目，看有没有用过lucene的先驱给看看

1 楼 lighter 2006-11-24

lucene没有用过,了解过
前一排用过compass,觉得更好用,
帮顶...

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene 字符编码问题: 下面将详细探讨Lucene中的字符编码问题及其解决方案。首先，我们要理解什么是字符编码。字符编码是将字符（如字母、数字、标点符号等）转换为二进制表示的方式，常见的有ASCII、GBK、UTF-8等。在多语言环境下，...

Lucene中的FST算法描述: 在信息检索和存储系统中，Lucene是一个开源的全文搜索引擎库，广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项（term），Lucene使用了FST（有限状态转换器，Finite State Transducer）...

lucene.NET 中文分词: 在Lucene.NET中，为了支持中文分词，通常需要结合第三方分词器，如IK Analyzer、HanLP、jieba.NET等。这些分词器具备丰富的词汇库和优秀的分词算法，能有效地对中文文本进行拆分。 - **IK Analyzer**：是一个开源的...

Lucene中文分词器包: 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率（使用方法请参考...

lucene中文分词工具包: 这通常包括去除标点符号、数字转换、特殊字符处理等，以减少后续分词的复杂性。 3. **分词器分词**：这是核心步骤，IKAnalyzer采用动态调优算法，能够在运行时根据上下文调整分词策略，以达到更好的分词效果。它...

Lucene中文分词器组件: Lucene是一个强大的全文检索库，广泛应用于搜索引擎开发和其他信息检索系统中。它提供了高效、可扩展的文本搜索功能，但是默认情况下并不支持中文处理。为了在Lucene中处理中文文本，我们需要引入专门的中文分词器...

lucene实现过程中存在的问题: ### Lucene实现过程中存在的问题及解决方式 #### 一、Lucene简介与应用场景 Lucene是一款高性能、全功能的文本搜索引擎库，它被广泛应用于各种需要进行高效全文检索的应用场景中，例如网站搜索、文档管理等。由于...

c# 中文分词 LUCENE IKAnalyzer: 标题中的"C# 中文分词 LUCENE IKAnalyzer"是指使用C#语言实现的一个中文分词工具，它基于开源全文检索引擎Lucene，并且采用了IKAnalyzer（智能汉字分词系统）的Java版本进行移植。Lucene是一个强大的、高性能的信息...

lucene 3.0 API 中文帮助文档 chm: lucene 3.0 API中文帮助，学习的人懂得的

支持lucene的词典机械中文分词: 本文将深入探讨一种基于Lucene的词典机械中文分词方法，该方法采用了反向机械分词算法，尤其关注对数字、英文以及中英文数字混合词的特殊处理，旨在提高分词速度和准确性。首先，反向机械分词算法是一种常用的中文...

Lucene中文切词(完整版): 对于中文，Lucene通常会使用如IK分词器、SmartCN分词器等第三方插件，这些插词器能较好地处理中文的复杂性，如歧义、多音字等问题。在标签中提到了“C#”，这意味着这个Lucene的实现是使用C#语言编写的。C#是一种...

lucene-core-7.2.1-API文档-中文版.zip: 赠送jar包：lucene-core-7.2.1.jar；赠送原API文档：lucene-core-7.2.1-javadoc.jar；赠送源代码：lucene-core-7.2.1-sources.jar；赠送Maven依赖信息文件：lucene-core-7.2.1.pom；包含翻译后的API文档：lucene...

lucene 中文分词庖丁解牛: 其中，Apache Lucene作为一个开源的全文检索库，被广泛应用于各种项目中，尤其对于处理中文文本，分词是其关键的一环。本文将深入探讨如何在Lucene中高效地进行中文分词，借助“庖丁解牛”的概念，以求在理解与应用...

基于词典的最大匹配的Lucene中文分词程序: - 特殊情况处理：处理歧义、未登录词（未出现在词典中的新词）等问题。 - 结果输出：输出分词结果，形成词语序列。在实际应用中，分词性能和准确性往往需要权衡。例如，为了提高准确性，可能需要增加词典大小，但...

lucene 搜索中文PDF文档: 在本篇文章中，我们将深入探讨如何使用Lucene来搜索中文PDF文档，以及在这个过程中可能遇到的关键技术和挑战。首先，我们要了解Lucene的核心概念。Lucene通过建立倒排索引来实现快速文本搜索。倒排索引是一种数据...

lucene 3.0 API 中文帮助文档: 1. **Analyzer**: 分析器是Lucene中的核心组件之一，负责将输入的文本分解成可搜索的词项（tokens）。在3.0版本中，Lucene提供了多种预定义的Analyzer，如StandardAnalyzer，它们可以处理不同语言的文本。 2. **...

lucene +中文分词: Lucene 与中文分词的结合

如何使用Lucene的中文分词搜索: 在实际应用中，还需要考虑诸如性能优化、近实时搜索、多线程索引和搜索等问题。此外，LuceneDB.java可能包含了与数据库交互的部分，将数据库中的数据导入到Lucene索引中，或者从索引中获取结果后更新到数据库。这...

lucene Analyzer 庖丁解牛中文分词: 本文将深入探讨Lucene的Analyzer组件，以及它如何处理中文分词这一关键问题。 Analyzer是Lucene中的一个关键类，它的主要任务是对用户输入的原始文本进行预处理，包括分词、去除停用词、词形还原等步骤，以生成适合...

Global site tag (gtag.js) - Google Analytics