`

MySQL全文检索中Like索引的实现

 
阅读更多

在数据库使用中,DBA都会告诉大家SQL的LIKE条件为%XXX%号时,由于不能使用索引,当数据量变大时(比如超过百万条),全表扫描会导致性能很差。

但是在实际业务中,很难避免MySQL全文检索并Like索引的这种需求。比如模糊搜索用户帐号,昵称之类。既然这个需求必须做,但又不可以直接用LIKE。这里我和大家分享一下我们关于这种需求的一种解决方案。当然别人也可能采用过类似的办法,我不是很清楚。所以也用一下“原创”吧。

MySQL数据库很早就支持全文索引,但是全文索引和LIKE语句是不同的。具体点说,全文索引的单位是词,耳LIKE匹配的是字符。当然实际的区别更大,比如“老鼠爱大米”这段文本用全文搜索的话,条件“老鼠爱大米”,“老鼠和大米”,“大米老鼠”,“大米与老鼠”会搜索到内容,但是“爱”,“鼠爱”,“爱大”不会搜索到内容。反之,使用LIKE搜索时,“老鼠和大米”,“大米老鼠”,“大米与老鼠”不会找到内容,而“爱”,“鼠爱”,“爱大”会找到内容。我们这里不讨论两种方式的优劣,根据实际情况每种功能都会有各自的实际需求。比如对于大段文本,全文检索是最好的方法,但是对于姓名,帐号,昵称等很短的通常无意义文本,LIKE会更合适一些。

虽然全文检索和LIKE搜索不同,但是在特殊情况下,可以用全文搜索功能来实现LIKE搜索。具体就是每个字符作为一个词,而且使用双引号来限制词精确匹配(简单点说就是老鼠大米和大米老鼠不同),这样可以实现LIKE搜索的功能。

下面还是说一下具体的做法吧。

首先,数据库指定 --ft_min_word_len=2 --ft_stopword_file=""。第一个参数是告诉数据库,小于2个字符的词忽略。第二个是告诉数据库不忽略任何特殊词。这些设置是给实现功能创造条件。

然后建搜索表

CREATE TABLE  tbl_search (
  id int(10) unsigned NOT NULL auto_increment,
  name varchar(500),
  PRIMARY KEY  (id),
  FULLTEXT KEY idx_name (name)
) ENGINE=InnoDB AUTO_INCREMENT=1;

 

static String encode(String input) {
if (input == null) return null;
StringBuilder output = new StringBuilder();
for (int i = 0, c = input.length(); i < c; ++i) {
char ch = input.charAt(i);

if (ch >= '0' && ch <= '9' || ch >= 'A' && ch <= 'Z' 
|| ch >= '0' && ch <= '9' || ch >= 'A' && ch <= 'Z' 
|| ch == '_' || ch == '-') {
output.append(Integer.toHexString(ch)).append(' ');

} else if (ch >= 'a' && ch <= 'z' || ch >= 'a' && ch <= 'z') {
output.append(Integer.toHexString((int)ch - 32)).append(' ');

} else {
Character.UnicodeBlock block = Character.UnicodeBlock.of(ch);
if (block == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
|| block == Character.UnicodeBlock.KATAKANA
|| block == Character.UnicodeBlock.HIRAGANA) {
output.append(Integer.toHexString(ch)).append(' ');
} else {
// do nothing
}
}

}

// trim blank
int last = output.length() - 1;
if (last > 0 && output.charAt(last) == ' ') {
output.deleteCharAt(last);
}

return output.toString();
}

使用上面的代码对要搜索的内容编码,比如内容是“蓝皮鼠2008”,编码后的结果是“84dd 76ae 9f20 32 30 30 38”。将编码后的内容存入name字段。

使用如下SQL语句进行搜索

select * from tbl_search where match(name) against('"76ae 9f20 32"' in boolean mode) 

这样就基本实现了MySQL全文检索中的Like索引。

分享到:
评论
1 楼 注意点啊 2015-02-09  
转码存储是不是多余了,直接按单个字:蓝 皮 鼠 2 0 0 8 来存储。一样可以用select * from tbl_search where match(name) against('皮 鼠 2' in boolean mode)

相关推荐

    mysql实现全文检索

    要在MySQL中实现全文检索,首先需要创建一个包含全文索引的表。创建时,需要指定哪些字段将用于全文检索。例如: ```sql CREATE TABLE 表名 ( cCode CHAR(10), sTitle VARCHAR(250), sContent TEXT, FULLTEXT...

    MySQL全文索引、联合索引、like查询、json查询速度哪个快

    本文将深入探讨全文索引、联合索引、LIKE查询以及JSON查询这四种不同方法在实际应用中的速度比较,并通过实例进行详细解析。 首先,全文索引(Full-text Index)是MySQL提供的一种特殊类型的索引,专门用于提高全文...

    如何在MySQL中提高全文搜索效率

    在MySQL中实现全文搜索的第一步是设置基本表格。例如,创建一个名为`reviews`的表,用于存储文本数据,如音乐专辑评论。可以使用以下SQL命令创建表: ```sql CREATE TABLE reviews ( id INT(5) PRIMARY KEY NOT ...

    MySQL索引最佳实践

    - 多列索引是指在一个索引中包含多个字段。 - 排序顺序由最前面的列开始依次比较后续列确定。 - 即使多列索引包含多个字段,但它仍然是一个单一的B-Tree索引,并不是每个字段都有单独的B-Tree索引。 #### 七、索引...

    Mysql实现全文检索、关键词跑分的方法实例

    在此之前,MySQL仅支持英文的全文索引,对于非英文的全文搜索,需要开发者自己实现分词器来预处理数据。在5.7.6版本中,引入了ngram全文解析器,它可以对文本进行分词,将连续的n个字符作为单词。ngram的大小由全局...

    MySQL创建全文索引分享

    MySQL全文索引是一种提高数据库查询性能的技术,尤其适用于大规模文本数据的检索。它通过分词技术和特定的算法,分析文本中的关键词频率和重要性,从而快速定位到匹配的记录。在MySQL中,全文索引主要应用于MYISAM...

    如何实现MySQL数据库中文模糊检索

    本文将详细介绍如何有效实现MySQL数据库中的中文模糊检索,确保检索结果的准确性。 首先,问题出现在当使用`LIKE '%a%'`这样的查询时,虽然期望找到包含"a"字符的记录,但返回的结果中也可能包含只有中文字符的记录...

    php mysql like 实现多关键词搜索的方法

    在数据库中使用PHP进行多关键词搜索的方法主要有两种,一是使用LIKE关键字结合百分号(%)进行模式匹配,二是实现分词检索数据库。下面将分别对这两种方法进行详细阐述。 首先,来看使用LIKE关键字配合模式匹配的方法...

    mysql索引原理深入解析

    全文索引适用于长文本字段,如消息内容,可以提升`LIKE`查询的效率,但MySQL内置的全文索引功能有限,可能需要使用第三方搜索引擎。 接下来,我们探讨索引的存储模型。最基本的思路是利用二分查找,即有序数组,它...

    mysql之Linux安装,重点是索引的优化笔记

    ### MySQL之Linux安装与索引优化笔记 #### 一、MySQL简介及Linux版安装 **1. MySQL概述** MySQL是一种关系型数据库管理系统(RDBMS),由瑞典MySQL AB公司开发,目前属于Oracle公司。它是一种开源软件,因其性能...

    横瓜数据库全文检索中间件

    你无需对自己的数据库文件做任何更改,就可以为数据库文件创建可供编程语言调用的ActiveX DLL全文检索接口,可用于任何与数据库检索有关的查询,例如全文搜索、垂直搜索、海量数据库LIKE式快速查询等。软件主要特点...

    072401MySQL索引2

    MySQL中的索引是一种重要的数据结构,它极大地提高了数据库查询的速度,尤其在处理大量数据时。索引被附加在表之外,作为一个独立的数据集,用于快速定位数据行。根据描述,我们将探讨不同类型的索引、存储引擎对...

    嵌入式数据库(MySQL)中数据模糊检索方法解析.pdf

    本文主要探讨了MySQL中的两种主要模糊查询方式:Like匹配和RegExp正则匹配,以及如何通过内置函数和全文索引来优化查询性能。 Like匹配是MySQL中最基础的模糊查询方式,它使用通配符来实现部分匹配。常见的通配符有...

    Sphinx 全文检索实践指南 - 介绍.pdf

    51CTO技术沙龙第19期讲义:Sphinx 全文检索实践指南主讲:李沫南部分主要内容:全文检索 VS 数据库检索SELECT * FROM documents WHERE title like '%test%'CPU 100%'30秒内只能进行一次查询'没有找到记录......

    基于MySQL的中文全文搜索研究.pdf

    全文索引的建立是提升查询性能的关键,它允许数据库根据特定语言的规则进行语言搜索,避免了像LIKE查询中使用通配符%导致的效率低下,减少了对数据库的压力。 在使用n-gram parser插件进行中文全文搜索前,需在...

    请描述MySQL有哪些索引类型

    MySQL中的索引是数据库优化的重要工具,用于加速数据检索,提高查询效率。下面将详细介绍标题和描述中提到的五种索引类型以及如何创建它们。 1. **普通索引(Index)**: 普通索引是最基础的索引类型,没有特定的...

Global site tag (gtag.js) - Google Analytics