`
John_wu
  • 浏览: 8831 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

lucene中特殊字符的转译问题

阅读更多
小弟用lucene2.0做了一个搜索引擎的项目,基本功能没有问题,但是在特殊字符的转译上出了一些问题,如括号:(),按照网上说的方法'\('根本JSP编译就不能通过,于是换Unicode码'\u0028',结果后台直接抛错:
org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, col
umn 1.
Was expecting one of:
    <NOT> ...
    "+" ...
    "-" ...
    "(" ...
    <QUOTED> ...
    <TERM> ...
    <PREFIXTERM> ...
    <WILDTERM> ...
    "[" ...
    "{" ...
    <NUMBER> ...

        at org.apache.lucene.queryParser.QueryParser.generateParseException(Quer
yParser.java:1226)

不知道大家有没有遇到过类似的情况,比如要匹配:'中国(北京)'
分享到:
评论
2 楼 John_wu 2006-11-24  
lighter 写道
lucene没有用过,了解过
前一排用过compass,觉得更好用,
帮顶...
谢谢lighter帮顶,个人感觉lucene还是蛮好用的,只是没有太多的时间去研究,总是在赶项目,看有没有用过lucene的先驱给看看
1 楼 lighter 2006-11-24  
lucene没有用过,了解过
前一排用过compass,觉得更好用,
帮顶...

相关推荐

    Lucene 字符编码问题

    下面将详细探讨Lucene中的字符编码问题及其解决方案。 首先,我们要理解什么是字符编码。字符编码是将字符(如字母、数字、标点符号等)转换为二进制表示的方式,常见的有ASCII、GBK、UTF-8等。在多语言环境下,...

    Lucene中的FST算法描述

    在信息检索和存储系统中,Lucene是一个开源的全文搜索引擎库,广泛应用于各种需要全文搜索功能的软件项目中。为了高效地处理和检索存储的词项(term),Lucene使用了FST(有限状态转换器,Finite State Transducer)...

    lucene.NET 中文分词

    在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备丰富的词汇库和优秀的分词算法,能有效地对中文文本进行拆分。 - **IK Analyzer**:是一个开源的...

    Lucene中文分词器包

    正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的优化处理 3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率 (使用方法请参考...

    lucene中文分词工具包

    这通常包括去除标点符号、数字转换、特殊字符处理等,以减少后续分词的复杂性。 3. **分词器分词**:这是核心步骤,IKAnalyzer采用动态调优算法,能够在运行时根据上下文调整分词策略,以达到更好的分词效果。它...

    Lucene中文分词器组件

    Lucene是一个强大的全文检索库,广泛应用于搜索引擎开发和其他信息检索系统中。它提供了高效、可扩展的文本搜索功能,但是默认情况下并不支持中文处理。为了在Lucene中处理中文文本,我们需要引入专门的中文分词器...

    lucene实现过程中存在的问题

    ### Lucene实现过程中存在的问题及解决方式 #### 一、Lucene简介与应用场景 Lucene是一款高性能、全功能的文本搜索引擎库,它被广泛应用于各种需要进行高效全文检索的应用场景中,例如网站搜索、文档管理等。由于...

    lucene 3.0 API 中文帮助文档 chm

    lucene 3.0 API中文帮助,学习的人懂得的

    支持lucene的词典机械中文分词

    本文将深入探讨一种基于Lucene的词典机械中文分词方法,该方法采用了反向机械分词算法,尤其关注对数字、英文以及中英文数字混合词的特殊处理,旨在提高分词速度和准确性。 首先,反向机械分词算法是一种常用的中文...

    Lucene中文切词(完整版)

    对于中文,Lucene通常会使用如IK分词器、SmartCN分词器等第三方插件,这些插词器能较好地处理中文的复杂性,如歧义、多音字等问题。 在标签中提到了“C#”,这意味着这个Lucene的实现是使用C#语言编写的。C#是一种...

    lucene-core-7.2.1-API文档-中文版.zip

    赠送jar包:lucene-core-7.2.1.jar; 赠送原API文档:lucene-core-7.2.1-javadoc.jar; 赠送源代码:lucene-core-7.2.1-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.2.1.pom; 包含翻译后的API文档:lucene...

    lucene 中文分词 庖丁解牛

    其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,分词是其关键的一环。本文将深入探讨如何在Lucene中高效地进行中文分词,借助“庖丁解牛”的概念,以求在理解与应用...

    基于词典的最大匹配的Lucene中文分词程序

    - 特殊情况处理:处理歧义、未登录词(未出现在词典中的新词)等问题。 - 结果输出:输出分词结果,形成词语序列。 在实际应用中,分词性能和准确性往往需要权衡。例如,为了提高准确性,可能需要增加词典大小,但...

    lucene 搜索中文PDF文档

    在本篇文章中,我们将深入探讨如何使用Lucene来搜索中文PDF文档,以及在这个过程中可能遇到的关键技术和挑战。 首先,我们要了解Lucene的核心概念。Lucene通过建立倒排索引来实现快速文本搜索。倒排索引是一种数据...

    lucene 3.0 API 中文帮助文档

    1. **Analyzer**: 分析器是Lucene中的核心组件之一,负责将输入的文本分解成可搜索的词项(tokens)。在3.0版本中,Lucene提供了多种预定义的Analyzer,如StandardAnalyzer,它们可以处理不同语言的文本。 2. **...

    lucene +中文分词

    Lucene 与中文分词的结合

    如何使用Lucene的中文分词搜索

    在实际应用中,还需要考虑诸如性能优化、近实时搜索、多线程索引和搜索等问题。此外,LuceneDB.java可能包含了与数据库交互的部分,将数据库中的数据导入到Lucene索引中,或者从索引中获取结果后更新到数据库。这...

    lucene所有的jar包

    本文将详细介绍“lucene所有的jar包”,特别是其中的“my的jar”和“ik的jar包”,以及它们在Lucene 4.9.0版本中的作用和使用方法。 一、Lucene简介 Lucene是Apache软件基金会的一个开放源代码项目,它提供了一个...

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

Global site tag (gtag.js) - Google Analytics