MySQL在高并发连接、数据库记录数较多的情况下,SELECT ... WHERE ... LIKE '%...%'的全文搜索方式不仅效率差,而且以通配符%开头作查询时,使用不到索引,需要全表扫描,对数据库的压力也很大。MySQL针对这一问题提供了一种全文索引解决方案,这不仅仅提高了性能和效率(因为MySQL对这些字段做了索引来优化搜索),而且实现了更高质量的搜索。但是,至今为止,MySQL对中文全文索引无法正确支持。
Mysqlcft 是为 MySQL 5.1.22 ~ 5.1.25 RC 开发的中文全文索引插件,用于解决MySQL无法正确支持中文全文检索的问题。
一、MySQL中文全文索引插件mysqlcft的特点:
1、优点:
①、精准度很高:采用自创的“三字节交叉切分算法”,对中文语句进行分割,无中文分词词库,搜索精准度远比中文分词算法高,能达到LIKE '%...%"的准确率。
②、查询速度快:查询速度比LIKE '%...%"搜索快3~50倍,文章末尾有测试结果;
③、标准插件式:以MySQL 5.1全文索引的标准插件形式开发,不修改MySQL源代码,不影响MySQL的其他功能,可快速跟进MySQL新版本;
④、支持版本多:支持所有的MySQL 5.1 Release Candidate版本,即MySQL 5.1.22 RC~最新的MySQL 5.1.25 RC;
⑤、支持字符集:支持包括GBK、GB2312、UTF-8、Latin1、BIG5在内的MySQL字符集(其他字符集没有测试过);
⑥、系统兼容好:具有i386和x86_64两个版本,支持32位(i386)和64位(x86_64)CPU及Linux系统;
⑦、适合分布式:非常适合MySQL Slave分布式系统架构,无词库维护成本,不存在词库同步问题。
2、缺点:
①、mysqlcft中文全文索引只适用于MyISAM表,因为MySQL只支持对MyISAM表建立FULLTEXT索引;
②、MySQL不能静态编译安装,否则无法安装mysqlcft插件;
③、基于“三字节交叉切分算法”的索引文件会比海量、ft-hightman等基于“中文分词算法”的索引文件稍大,但不是大很多。根据我的测试,mysqlcft全文索引的.MYI索引文件是.MYD数据文件的2~6倍。
二、mysqlcft的核心思想──“三字节交叉切分算法”
注:本文以0~7数字序号代表“英文”、“数字”和“半个汉字”,以便说明。
1、按三字节对中文语句进行切分,建立全文索引:
例如:“全文索引”或“1台x光机”四个字会被交叉分拆为6份,建立反向索引:
012 123 234 345 456 567
2、按三字节对搜索的关键字进行切分,在全文索引中找出对应信息:
例①:搜索关键字“文索”,用数字序号表示就是“2~5”,那么它将被切分成:
234 345
这样,就与全文索引对上了。
例②:搜索关键字“x光机”,用数字序号表示就是“3~7”,那么它将被切分成:
345 456 567
这样,也与全文索引对上了。
例③:搜索关键字“1台 光机”,用数字序号表示就是“0~2”和“4~7”,那么它将被切分成:
012 456 567
这样,多关键字搜索也与全文索引对上了。
分享到:
相关推荐
一、MySQL中文全文索引插件mysqlcft的特点: 1、优点: ①、精准度很高:采用自创的“三字节交叉切分算法”,对中文语句进行分割,无中文分词词库,搜索精准度远比中文分词算法高,能达到LIKE '%...%"的准确率。...
一、MySQL中文全文索引插件mysqlcft的特点: 1、优点: ①、精准度很高:采用自创的“三字节交叉切分算法”,对中文语句进行分割,无中文分词词库,搜索精准度远比中文分词算法高,能达到LIKE '%...%"的准确率。...
MySQL全文索引是一种提高数据库查询性能的技术,尤其适用于大规模文本数据的检索。它通过分词技术和特定的算法,分析文本中的关键词频率和重要性,从而快速定位到匹配的记录。在MySQL中,全文索引主要应用于MYISAM...
MySQL 结巴中文分词插件 SqlJieba 『关键词』MySQL, 插件(Plugin), 中文分词, 结巴分词(Jieba), 全文检索(Full-Text), SqlJieba 使用方法:mysql> create database sqljieba; Query OK, 1 row affected ...
Solr3.6用DIH组件进行MySQL数据库全文索引部署包 完整的工程部署包 apache-solr-3.6.0.xml 放入apache-tomcat-7.0.27\conf\Catalina\localhost
MySQL 8.0 审计插件 Mcafee 安装详解 MySQL 8.0 审计插件 Mcafee 安装详解是 MySQL 8.0 版本中实现审计日志的重要步骤。由于 MySQL 社区版本没有官方的审计插件,因此只能选择 MariaDB 的审计插件和 Mcafee。鉴于 ...
MariaDB的审计日志插件与MySQL 8.0可能存在兼容性问题,这是本问题的核心所在。 首先,我们需要确认MySQL的版本,可以通过执行`show VARIABLES like '%version%'`来获取。确保你知道当前运行的是MySQL的确切版本,...
【MySQL】中文界面插件
MySQL 5.7 是一个广泛使用的开源关系型数据库管理系统,其审计插件是实现数据库活动监控和记录的重要工具。审计插件允许管理员跟踪并记录数据库的各种操作,如查询、登录尝试、权限更改等,这对于合规性、安全性和...
MySQL全文索引是一种高效检索文本数据的技术,尤其适用于大数据量的文本字段搜索。在MySQL中,全文索引主要应用于MyISAM和InnoDB两种表引擎,尽管MyISAM是传统选择,但自MySQL 5.6以后,InnoDB也开始支持全文索引。 ...
MySQL 的索引分为两种主要类型:MyISAM 使用非聚集索引,索引与数据分开存储,而 InnoDB 使用聚集索引,索引和数据在同一结构中,因此 InnoDB 的索引支持更快的查找,但不支持全文检索。在索引优化方面,最左前缀...
MySQL全文索引是一种高效搜索大量文本数据的方法,它允许用户以自然语言的形式进行查询,而不仅仅是基于精确匹配。全文索引在数据库管理中扮演着重要角色,尤其在处理新闻、文章、博客等含有大量文本信息的数据时。...
MySQL的全文索引和搜索功能允许我们快速高效地执行复杂的模糊查找。全文索引不同于普通的索引,它能够理解自然语言,提供更接近人类思维的搜索结果。在MySQL中,全文索引主要通过`MATCH AGAINST`语句实现,可以配合`...
MySQL 5.7开始引入了对JSON数据类型的原生支持,包括一系列用于查询、索引和操作JSON字段的内置函数。然而,如果用户有更高级或特定的需求,例如自定义的JSON处理函数,那么这个插件可能提供了一种解决方案。 描述...
MySQL全文索引是一种高效检索大量文本数据的机制,尤其适用于大数据搜索场景。在MySQL 5.5.24版本中,全文索引主要用于提升文本字段的搜索效率,它通过分词技术将文本拆分成可搜索的词项。全文索引在MyISAM存储引擎...
在UE4中,有时候我们需要与外部数据库进行数据交互,例如MySQL,这时就需要借助特定的插件来实现。"UE4 Mysql插件"就是这样一个工具,它使得UE4能够与MySQL数据库进行通信,从而实现数据的读取、写入和管理。 UE4 ...
MySQL全文索引是一种高效检索文本数据的机制,尤其适用于大数据量的文本检索场景。全文索引在MySQL中主要用于提升对长文本字段的搜索性能,它能够理解查询字符串中的语义,找出与之最相关的记录。在MySQL 5.6之前,...
《DataX MySQL8读写插件详解》 DataX是阿里巴巴开源的一款强大的数据同步工具,它支持多种数据源之间的数据迁移。在大数据处理领域,MySQL作为广泛应用的关系型数据库,其数据的读取与写入往往是必不可少的操作。...