`
ihuashao
  • 浏览: 4744745 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

Lucene和 搜索结果聚集

阅读更多

Lucene和 搜索结果聚集

	在  msn 的 sandbox 项目中有一个中国微软研究院开发的 搜索结果聚集 的项目。 
搜索结果聚集 是基于这样的理念:用户在使用搜索引擎查询时, 往往只提供最关心的关键字给搜索引擎,搜索引擎则机械的返回成千上百个“相关”结果,
在这种信息的海洋中,用户往往不能有效的找到他需要的信息,搜索 结果聚集就是按照信息本身的属性对搜索结果进行分类,呈现给用户分类后的结果。
比如下面这个连接是我测试 桂林 的搜索结果。(点击查看)可以看出 搜索引擎分别 按照 旅游,邮政,政府介绍 等类别自动的对与桂林相关的搜索结果进行了归类。 上周Lucene开发者列表也对搜索结果聚集展开了热烈的讨论。 可喜的是现在已经有人实现了 lucene 和 carrot2 的 一个例子,
您可以到 Lucene 学习中心下载相关代码:Lucene文档中心 。 目前比较收到推崇的两个 有关搜索结果聚集的项目是:carror2weka
	相关连接:
		Lingo 搜索聚集原理
		多么乐
		http://java2.5341.com/msg/82310.html
分享到:
评论

相关推荐

    hadoop.contrib/lucene源码

    在IT领域,Hadoop和Lucene是两个非常重要的开源项目,它们分别在大数据处理和全文检索方面发挥着关键作用。本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来...

    浅谈MySQL和Lucene索引的对比分析

    MySQL和Lucene是两种在数据检索领域广泛应用的技术,...MySQL侧重于事务处理和结构化数据的快速访问,而Lucene则专注于文本数据的高效搜索。了解这些差异有助于我们在实际应用中选择合适的技术,并进行有效的索引优化。

    高清彩版 自己动手写搜索引擎

    - **7.1 Lucene搜索**:基于Lucene构建用户友好的搜索界面。 - **...**:后续章节将继续介绍更多关于用户界面设计和实现的内容。 综上所述,《高清彩版 自己动手写搜索引擎》这本书涵盖了从搜索引擎基础知识到高级...

    Java 84 道面试题及答案.docx

    "Java 84 道面试题及答案.docx" ...9. 开源框架:包括 Poi、Jfreechat、Ckeditor、Lucene、Pinyin4j 等多种开源框架,用于操作 office 文档、生成图表、论坛中的富文本输入框、搜索技术和汉字的拼音等。

    分布式高并发.pdf

    搜索引擎的特点和应用场景包括倒排索引、创建索引、Lucene和ElasticSearch、分词器等。 七、大数据与高并发 大数据与高并发的解决方案包括秒杀架构设计、限流削峰、异步缓存、整体架构、客户端优化、秒杀页面防止...

    84道Java面试题及答案

    10. **开源框架**:例如Apache POI用于处理Office文档,JFreeChart用于生成图表,CKEditor是富文本编辑器,Lucene用于全文搜索,Pinyin4j处理汉字拼音。 11. **事务**:事务是一组原子操作,具有ACID特性:原子性、...

    Java面试题和答案84道.docx

    开源框架如Apache POI用于操作Office文档,JFreeChart用于生成图表,CKEditor是富文本编辑器,Lucene是搜索技术,Pinyin4j处理汉字拼音。 12. **事务**: 事务确保数据库操作的原子性、一致性、隔离性和持久性。...

    爬虫技术精髓.pdf

    爬虫技术是指从互联网上自动搜索、下载和处理网页内容的技术。爬虫技术可以应用于搜索引擎、数据挖掘、网络监控等领域。 爬虫原理: 爬虫技术的原理是基于 HTML 的。每个网页页面返回到客户端的都是 HTML,你需要...

    Java 84道面试题和答案.docx

    - Lucene 搜索引擎库 - Pinyin4j 汉字拼音处理 12. **事务**: 事务是一系列操作的集合,确保数据一致性。具有原子性、一致性、隔离性和持久性四大特性。在涉及多步数据库操作且要求全部成功或全部失败的场景中...

    基于Javaee的影视创作论坛的设计与实现.zip

    在当今数字化时代,影视创作论坛作为交流、分享和学习的平台,已经成为了许多创作者和爱好者的重要聚集地。本项目以JavaEE技术为核心,旨在构建一个功能完善、用户体验良好的在线社区,旨在促进影视创作领域的交流与...

    后端架构师技术图谱.docx

    - 搜索引擎原理,如Lucene、Elasticsearch、Solr、sphinx的工作机制。 10. **性能**: - 性能优化方法论、容量评估、CDN网络、连接池和性能调优。 11. **大数据**: - 流式计算框架如Storm、Flink、Kafka ...

    HnHSearch-开源

    2. **自然语言处理**:为了提供准确的搜索结果,可能使用了自然语言处理技术来理解和分析用户查询,比如词干提取、停用词过滤和同义词扩展。 3. **排序算法**:搜索引擎需要对搜索结果进行排名,这涉及到复杂的排序...

    Java面试题及答案-共8道.docx

    12. **开源框架**:例如Apache POI用于操作Office文档,JFreeChart用于生成图表,CKEditor作为富文本编辑器,Lucene用于全文搜索引擎,Pinyin4j处理汉字拼音。 13. **事务**:事务是一系列原子操作,具有ACID特性...

Global site tag (gtag.js) - Google Analytics