-
有没有办法,测试一个网站是: 基于单字分词检索,还是纯数据库查询5
网站的站内搜索:
1、基于单字分词检索,单字索引
2、纯数据库查询,SQL like模糊匹配
问题有没有方法,比如通过关键字或者什么,确定网站肯定是用的哪种方法。
谢谢,谢谢!
问题补充:
输个词组 数据库可以模糊匹配啊
加个空格 可以先切成两个字符串 再进行模糊匹配啊
好像不能区分,不会看速度区分吧?
问题补充:
jim.jin,wangxuliangboy:
你们试下淘宝,淘宝对输入的查询字串是不分词的(只空格切分)
但淘宝肯定用的全文检索,能搜索常用词的单字,所以是一元分词(单字),但其他中小网站就不知道了
对输入字串两种方式都可以做到对特殊字符切分。
sunlightcs :是这样的
我发现现在许多电子商务类网站,输入常用词的单字就能搜到商品,比如输入“运”能搜到“运动”
也就是说要么是单字分词,要么是数据库模糊匹配
我不知道有什么办法区分,做个调查可以的话写论文用
问题补充:
sunlightcs:
在淘宝输入“格”能搜到“价格”,“格”没有价格的语义啊
所以淘宝就是一元分词,不用词表,它的提示倒是经过分词的
如果再而外要一个词库,“运”能搜到“运动”,那么“运输”“运价”也要提交给全文检索,一个字变成搜索一堆词,性能反而低了
而且这个词库(知识库)也是个问题啊
2009年10月20日 23:49
相关推荐
"chinesedict.mdb"文件很可能是一个数据库文件,存储了上述的汉语单字字典数据。".mdb"扩展名通常与Microsoft Access数据库相关联,这是一种关系型数据库管理系统,用于存储和管理结构化的数据。在这个上下文中,它...
中文分词技术的难点在于如何正确处理歧义,即一个词组可能有多种分割方式,而每种方式可能又有不同的含义。 在文档中提到的基于SQL Server的中文分词系统设计,首先需要了解SQL Server是微软公司推出的关系型数据库...
3. **用户反馈机制**:传统的检索系统往往是一个前馈网络,即用户查询后只给出固定的检索结果。而本文设计的系统则加入了用户反馈机制,允许用户根据检索结果的相关性进行评价,系统据此调整后续的检索结果排序,...
《新华字典xls数据库》是一个专门收录汉字信息的电子资源,包含了丰富的汉字数据,总计16166个汉字。这个数据库以微软Excel(xls)格式存储,方便用户进行检索和分析。在本文中,我们将深入探讨这个数据库的结构、...
搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,其针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词...
7. **统一异构检索平台**:CNKI打造了一个统一异构检索平台,能够支持国内外60多个不同数据库的检索,包括EI、SCI、OCLC和PQDD等,这是业界首个此类平台,体现了CNKI在资源整合和检索技术上的领先地位。 8. **数字...
当遇到单个汉字时,创建新的链表,并将后续的相关记录添加到该链表中,直到遇到下一个单字为止。 #### 数据结构 词典构建完成后,在内存中形成的词典数据结构如图1所示: - `kj`:汉字内码的高字节,用于计算区号...
Lucene是一个高性能、全功能的文本搜索库,它被广泛应用于各种规模的应用程序之中。作为一款开源工具,Lucene提供了强大的搜索功能,使得开发者能够轻松地为自己的应用添加搜索功能。 #### 官方网站 - **网址**:...
- Rsyslog:一个系统日志守护进程,能够将系统日志发送到网络中的其他服务器。 - Flume:是一个分布式、可靠且可用的服务,用于有效地收集、聚合和移动大量日志数据。 - Filebeat:用于文件数据的轻量级日志数据收集...
- 字段:一系列术语的集合。 - 术语:字符串,可以是单字或词语。 - **索引字段**:分为URL、标题、链接文字和内容四个部分。 - URL字段对应网页数据库中的URL。 - 标题和链接文字字段对应标题链接文字内容。 ...
提供分词和单字检索控制,以及词频、相关度和排序控制,使得用户可以更加精确地找到所需信息。同时,位置控制和精确模糊控制等检索控制选项增加了检索的灵活性。相似性检索功能的引入,进一步帮助用户找到相关的文献...
MySQL全文搜索功能主要依赖于`MATCH()`和`AGAINST()`两个函数,用于在MyISAM表类型的字段上执行高效的文本搜索。以下是对标题和描述中所述知识点的详细说明: 1. **全文搜索的前提条件** - 表的存储引擎必须是...
在IT行业中,Spring框架是Java开发中的一个基石,它提供了丰富的功能来构建高效、可测试且灵活的Java应用程序。而RediSearch是Redis的一个模块,它将强大的全文搜索引擎功能引入了内存数据存储。当我们结合Spring与...