`
kongshanxuelin
  • 浏览: 922428 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

全文检索中的相关技术探讨

阅读更多

要做好一个全文检索的功能,并没有我们想象的这么简单,就我自己做的一个小应用举例来说明其中的技术要点与实现:

  1. 首先是找到全文检索的开源包,毫无疑问,首选lucene,这部分实现难度不大,其中jforum里的源码就提供了这种实现方式的绝佳教材,里面可配置一系列有关lucene和搜索相关的参数信息,推荐大家看jforum关于全文检索的源码!
  2. 找到一个好的中文分词算法,索引应该以词为单位,这会给你带来很好好处,可使用庖丁解牛中文分词或中科院分词算法(开源的好像不支持自定义词典)。
  3. 别字纠正,拼音纠正,当用户搜索“pinguo”,能自动搜索出关于苹果的记录,或用户输入常见错别字时,系统应也能自动纠正,这个不清楚怎么做,莫非也建词典?
  4. 给出搜索建议是一个好的用户体验
  5. 搜索词加亮是一个好的用户体验
  6. 搜索结果展现的summary应该也有一个好的算法支持,这个好像lucene自带的有。
  7. 建索引的考虑,是实时的还是定时批量的,要根据业务需求来定

以下是我的拙作,只是处理了1,2条,其他还需完善:http://so.faqee.com/

 

注:实现源码主要来自jforum,中文分词使用的是中科院那个版本,欢迎有相关经验的朋友一起探讨!

2
0
分享到:
评论
1 楼 judasn 2012-07-20  
你好,我现在也碰到这个问题了...不知道怎样把错别字和拼音给很好的解决....我用的是IK分词....你能给我一点建议吗?..很感谢!  jn3.141592654@163.com

相关推荐

    自然语言处理技术在中文全文检索中的应用

    自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术, 接着详细地阐述了自然语言处理技术在中文全文检索中的...文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。

    信息检索基本原理与数据库全文检索技术

    信息检索是信息技术领域的重要组成部分,它涉及到如何有效地从大量文档集合中找到与用户查询相关的信息。...数据库全文检索技术则专门针对文本数据提供高效的查询解决方案,以应对传统索引方法在处理长文本时的局限性。

    Java的全文检索实现

    全文检索技术在现代社会中的应用越来越广泛,特别是在互联网领域。基于Java的全文检索系统,特别是利用Lucene的强大功能,可以极大地提高信息检索的效率和准确性。通过合理的架构设计和性能优化策略,可以使这样的...

    简单实用的全文检索模块

    总结一下,全文检索技术在C#中可以通过自定义或者使用现有的库(如Lucene.NET)来实现。主要流程包括索引构建、查询解析、排名和结果展示。通过提供的压缩包文件,我们可以学习如何在C#环境中建立倒排索引、执行查询...

    Oracle全文检索技术详解

    Oracle全文检索技术是一种高效、强大的数据搜索功能,它允许用户通过自然语言查询在数据库中查找信息,而无需了解复杂的SQL语法。本讲解将深入探讨Oracle全文检索的核心概念、工作原理以及如何实现中文检索器技术。 ...

    C# Winfrom 模拟字符串全文检索

    在IT领域,全文检索是一种非常重要的技术,尤其在文本处理和信息检索中。在本案例中,我们将聚焦于如何在C#环境下,利用Winform窗口应用程序实现字符串的全文检索功能。这一过程涉及到文件的读取、字符串处理以及...

    对设置 的关键字的全文检索,并且高亮显示

    在IT行业中,全文检索和高亮显示是两个重要的技术概念,尤其在信息检索、搜索引擎以及数据分析等领域广泛应用。这里我们将深入探讨这两个主题。 首先,我们来理解什么是全文检索。全文检索是一种从文档集合中查找...

    全文检索案例

    在这个“全文检索案例”中,我们将探讨如何实现一个简单的全文检索系统,涉及的关键技术包括索引构建、查询处理和结果排序。 1. **索引构建**:全文检索的核心是建立索引,这类似于图书馆的目录系统。对于每个文档...

    quanwenjiansuo.rar_全文检索

    《全文检索技术详解》 ...全文检索技术是信息时代的重要工具,它在不断进步中满足了人们日益增长的信息需求。随着技术的不断创新,未来的全文检索将更加智能、高效,为我们的生活和工作带来更大的便利。

    全文检索技术 lucene(二) 自己动手写一个搜索引擎

    在本篇文章中,我们将深入探讨全文检索技术,特别是聚焦于Apache Lucene库,这是一个强大的开源全文搜索引擎库。我们将逐步解析如何使用Lucene自己动手构建一个简单的搜索引擎,这将涵盖从理解基本概念到实现具体...

    基于Java的全文检索技术研究.pdf

    本文探讨了基于Java的全文检索技术,旨在解决当前信息系统面临的挑战。随着网络技术的快速发展,互联网上的信息资源以爆炸式增长,各种数据资源充斥在网络中,而如何将关键信息从海量的数据中提取出来,始终是信息...

    计算机网络信息检索中存在的问题及发展方向探讨.pdf

    5 结论计算机网络信息检索技术在不断发展中,面临着新的挑战和机遇。通过深入研究和优化检索方式,解决现有问题,结合新兴技术,我们可以期待更加智能、高效、个性化的网络信息检索服务,以更好地服务于信息时代的...

    java全文检索

    总结来说,Java全文检索技术通过高效的数据结构和算法,实现了在海量文本数据中的快速查找和高相关性的搜索结果。结合成熟的开源库,如Lucene、Elasticsearch和Solr,开发者可以轻松地在Java项目中实现全文检索功能...

    使用lucene全文检索数据库

    在这个项目中,我们将探讨如何利用Lucene 2.4.0版本与Access数据库结合,实现对数据库内容的全文检索。 首先,我们需要理解Lucene的基本工作原理。Lucene的核心概念包括文档(Document)、字段(Field)和索引...

    快速构建PHP全文检索——马明练

    在当今信息爆炸的时代,高效的信息检索技术变得尤为重要。本文将深入探讨如何利用PHP实现全文检索,并基于Xapian与Xunsearch库进行具体实践。 #### 一、信息检索概述 **信息检索(Information Retrieval, IR)**是...

    基于Lucene的全文检索引擎研究与应用.pdf

    全文检索技术作为一种重要的信息检索手段,在这方面发挥着不可替代的作用。本文将基于一篇关于“基于Lucene的全文检索引擎研究与应用”的论文,深入探讨全文检索的基本原理、Lucene系统的结构特点以及其实现的应用...

Global site tag (gtag.js) - Google Analytics