全文搜索的一些理论总结 - san_yun - ITeye博客

`

san_yun

浏览: 2665424 次
来自: 杭州

最近访客更多访客>>

空城旧梦why

sd3870181

alexqdjay

hanmiao

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

siphlina：课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库
san_yun： leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC)
leibnitz： hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC)
107x：不错，谢谢！
Latent Semantic Analysis(LSA/ LSI)算法简介
107x：不错，谢谢！
Python机器学习库

全文搜索的一些理论总结

博客分类：

solr

阅读更多

很长一段时间我对全文搜索都有种错误的认识，认为学习全文搜索没有必要，全文搜索在小公司用不上，在大公司有专业人才。其实这种想法是非常错误的，现在的网站向社交关系发展，用户产生海量内容，如果没有全文搜索根本无法体现出UGD网站的价值。比如蘑菇街支持标签搜索，”瀑布排序“都只能通过搜索引擎实现。

全文搜索 的分类

1. 顺序扫描法
2. 逆向索引

全文搜索的处理步骤

1. 抓取数据

2. build index

3. 评分

4. 搜索

全文搜索的重要概念

term
postings

一个例子

通过逆向索引实现章鱼台的标签搜索

需求：

章鱼台需要支持对视频添加标签的功能。比如发布一首王菲的歌曲，可以添加王菲，MV这两个标签。通过搜索王菲，MV就可以找到这部视频。

实现方式：

table = {}

def build(msg,docId):
	if table.has_key(msg):
		table[msg].extend([docId])
	else:
		table[msg] = [docId]

build('wangfei',1)
build('mv',1)

build('suiyanzi',2)
build('mv',2)

build('zhoujielun',3)
build('mv',3)


print table

index: {'wangfei': [1], 'mv': [1, 2, 3], 'suiyanzi': [2], 'zhoujielun': [3]}

这里的实现方式比较简单，没有支持or and等搜索方式，也没有考虑分词。

参考：http://blog.csdn.net/forfuture1978/article/details/4711308

查看图片附件

分享到：

一些资料 | python tuple

2012-06-09 11:42
浏览 950
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

全文检索理论知识: 学习全文检索总结的理论知识总结分享;学习全文检索总结的理论知识总结分享

对于Oracle锁的一些理论总结: 在DB2中，加锁过程涉及到在锁列表中排队和搜索，而Oracle则简化为直接定位数据并加锁。Oracle通过数据块（block）中的ITL（Intent To Lock）事务列表来记录事务对行的修改，每行的头部有一个Lock byte标识锁定状态。...

信息检索基本理论课件: 信息检索基本理论是信息技术领域的重要组成部分，主要涉及如何有效地获取、组织和利用信息资源。这一领域的知识涵盖了信息的定义、信息源的种类、信息检索的原理和方法等多个方面。首先，我们要理解信息的基本概念...

Oracle数据库全文检索性能研究.pdf: 总结起来，Oracle数据库全文检索性能的研究旨在探讨如何在Oracle环境中高效地处理和检索文本数据。通过解锁用户、授权、选择合适的分词器和创建全文索引，可以实现高效的全文检索。同时，性能测试和分析揭示了影响...

技术团队培训：全文检索.pptx: ### 技术团队培训：全文检索 #### 一、全文检索与蜘蛛爬虫机器人 - **全文检索**：指的...以上是对全文检索相关的基础知识和技术要点的总结，希望能帮助技术团队成员更好地理解和掌握全文检索的核心技术和应用场景。

开放源代码的全文检索引擎Lucene[归纳].pdf: 全文检索系统是基于全文检索理论建立的软件系统，其基本功能包括建立索引、提供查询服务以及处理查询结果。全文检索方法分为按字检索和按词检索，前者对每个字建立索引，后者则针对语义单位——词建立索引。在中文...

基于Lucene的全文检索系统: 总结，基于Lucene的全文检索系统提供了强大的文本搜索能力，通过分析、索引和搜索机制，使得信息检索变得高效和准确。对于开发者而言，理解并掌握Lucene的原理和实践，能有效提升其在信息检索领域的技术水平。

云栖专家带你技术进阶之全文检索和相似搜索实践.pdf: ### 云栖专家带你技术进阶之全文检索和相似...总结来说，全文检索和相似搜索技术在云平台上的应用不仅提高了数据检索的效率和准确性，也为各种数据密集型应用提供了强大的支持，极大促进了企业应用和服务的创新与发展。

人工智能-项目实践-检索系统-结合TRIZ理论的商业方法专利检索系统设计: 总结来说，这个项目融合了人工智能、TRIZ理论和Java技术，旨在创建一个能够深入理解和智能检索商业方法专利的系统。通过这样的系统，企业可以更有效地跟踪竞争对手的专利动态，发现新的商业机会，规避潜在的法律风险...

信息存储与检索\第二章信息检索的理论与基本方法 .ppt: 总结来说，信息检索的理论与基本方法是构建高效信息检索系统的基础，它涉及到信息的组织、描述和检索策略。理解并掌握这些理论和技术，对于信息管理和知识发现至关重要，尤其在当前信息爆炸的时代，能够帮助用户从...

Java全文检索引擎Lucene的应用.pdf: 传统的全文检索理论通过计算机程序扫描每一篇文章中的每一个词，并建立基于词汇的倒排索引文件。检索程序则根据检索词在文章中出现的频率以及在整篇文章中的概率，对包含这些检索词的文章进行排序，最后输出排序结果...

2022-2023山东大学软件学院信息检索知识点总结: 山东大学软件学院对信息检索知识点的总结，不仅为我们提供了一个系统的理论框架，而且为实际应用中的信息检索技术优化提供了指导。通过对这些知识点的学习和掌握，我们可以更有效地设计和实现信息检索系统，更好地...

通信网理论: 通信网理论是研究信息的传输、交换、处理、存储、检索和显示的一门学科，它在现代信息技术中占有非常重要的地位。通信网络理论基础广泛，包含了从基础的电路理论、信号处理到复杂的网络协议和网络拓扑结构等各个方面...

数据库系统概论第四版理论复习总结归纳: 本复习总结归纳旨在帮助读者深入理解和掌握数据库系统的相关概念、原理与技术。 1. 数据库系统基础 - 数据库（Database）：存储数据的集合，具有组织结构。 - 数据模型：描述数据的结构和关系，如关系模型、网络...

智能技术原理PPT 模糊集理论: 总结来说，这份PPT不仅为读者提供了智能技术原理的全面视角，还着重探讨了模糊集理论在智能系统中的应用。通过深入分析模糊集理论，及其在智能技术中的应用，如推理方法、状态空间搜索策略等，这份资料旨在帮助读者...

武汉大学优化理论 PPT: 总结起来，这组PPT资料为我们提供了一个全面的优化理论学习框架，从基础的搜索技术到高级的全局优化算法，涵盖了各种经典方法。掌握这些理论和算法，不仅可以提升我们的问题解决能力，也为解决现实世界中的复杂问题...

信息检索学习总结大全 (4).docx: 通过《信息检索学习总结大全 (4).docx》的学习，我对信息检索有了更深刻的认识和理解，以下是我对信息检索学习的总结与体会。首先，信息检索是一门涉及广泛领域的技术。它不仅仅局限于使用搜索引擎进行关键词查询...

TRIZ理论与自主创新.pdf: TRIZ理论的核心在于通过分析数以万计的专利，发现并总结出解决技术问题的规律和模式，以此来指导解决实际问题，促进产品和技术的创新。 TRIZ理论的基本内容包括： 1. 技术系统的演化规律：TRIZ理论认为技术系统会...

二八理论和长尾理论在SEO营销中的应用: ### 二八理论和长尾理论在SEO营销中的应用 #### 一、引言在当前竞争激烈的互联网环境中，搜索引擎优化（SEO）已成为企业获取在线可见性和提高网站流量的重要手段之一。二八理论与长尾理论作为两种重要的经济概念...

Global site tag (gtag.js) - Google Analytics