0 0

有没有办法,测试一个网站是: 基于单字分词检索,还是纯数据库查询5

网站的站内搜索:
1、基于单字分词检索,单字索引
2、纯数据库查询,SQL like模糊匹配

问题有没有方法,比如通过关键字或者什么,确定网站肯定是用的哪种方法。

谢谢,谢谢!
问题补充:
输个词组 数据库可以模糊匹配啊
加个空格 可以先切成两个字符串 再进行模糊匹配啊

好像不能区分,不会看速度区分吧?
问题补充:
jim.jin,wangxuliangboy:

你们试下淘宝,淘宝对输入的查询字串是不分词的(只空格切分)
但淘宝肯定用的全文检索,能搜索常用词的单字,所以是一元分词(单字),但其他中小网站就不知道了

对输入字串两种方式都可以做到对特殊字符切分。


sunlightcs :是这样的

我发现现在许多电子商务类网站,输入常用词的单字就能搜到商品,比如输入“运”能搜到“运动”

也就是说要么是单字分词,要么是数据库模糊匹配

我不知道有什么办法区分,做个调查可以的话写论文用



问题补充:
sunlightcs:

在淘宝输入“格”能搜到“价格”,“格”没有价格的语义啊
所以淘宝就是一元分词,不用词表,它的提示倒是经过分词的

如果再而外要一个词库,“运”能搜到“运动”,那么“运输”“运价”也要提交给全文检索,一个字变成搜索一堆词,性能反而低了

而且这个词库(知识库)也是个问题啊

2009年10月20日 23:49

4个答案 按时间排序 按投票排序

0 0

分词库是可以自己定义的,taobao 他一定把热门词会加进去,比如你说的"格"

2009年10月25日 20:03
0 0

给一句完整的话。。然后搜索下看结果就知道了呀。。。。
如果搜索引擎的话,,肯定会对你的那句话进行分词。。这些搜出来的结果根据相似度排出来的结果。

2009年10月23日 10:50
0 0

如果你能加数据,就先加一内容如 : "分词检索  纯数据库查询"
然后 输入 "词检 据库查" 进行搜索,
如果能搜到大概能判断是 纯数据库查询
搜不到大概能判断是 分词
因为分词往往是索引词组,为了速度.

只能说是大概啦,别人也可以搞BT嘛,用纯数据库搞个像分词效果的.
不过做这种测试好像有点无聊,没意义吧.

2009年10月21日 22:10
0 0

输个词组 或加几个空格 看搜索结果.
纯数据库只有LIKE

2009年10月21日 00:26

相关推荐

    在分词系统中的汉语单字字典

    "chinesedict.mdb"文件很可能是一个数据库文件,存储了上述的汉语单字字典数据。".mdb"扩展名通常与Microsoft Access数据库相关联,这是一种关系型数据库管理系统,用于存储和管理结构化的数据。在这个上下文中,它...

    基于SQL Server的中文分词系统设计及应用.pdf

    中文分词技术的难点在于如何正确处理歧义,即一个词组可能有多种分割方式,而每种方式可能又有不同的含义。 在文档中提到的基于SQL Server的中文分词系统设计,首先需要了解SQL Server是微软公司推出的关系型数据库...

    中文全文检索技术的研究及实现

    3. **用户反馈机制**:传统的检索系统往往是一个前馈网络,即用户查询后只给出固定的检索结果。而本文设计的系统则加入了用户反馈机制,允许用户根据检索结果的相关性进行评价,系统据此调整后续的检索结果排序,...

    新华字典xls数据库

    《新华字典xls数据库》是一个专门收录汉字信息的电子资源,包含了丰富的汉字数据,总计16166个汉字。这个数据库以微软Excel(xls)格式存储,方便用户进行检索和分析。在本文中,我们将深入探讨这个数据库的结构、...

    搜易站内搜索引擎

    搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,其针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词...

    CNKI知识服务平台技术进展实用PPT课件.pptx

    7. **统一异构检索平台**:CNKI打造了一个统一异构检索平台,能够支持国内外60多个不同数据库的检索,包括EI、SCI、OCLC和PQDD等,这是业界首个此类平台,体现了CNKI在资源整合和检索技术上的领先地位。 8. **数字...

    基于位置信息的未登录词识别方法

    当遇到单个汉字时,创建新的链表,并将后续的相关记录添加到该链表中,直到遇到下一个单字为止。 #### 数据结构 词典构建完成后,在内存中形成的词典数据结构如图1所示: - `kj`:汉字内码的高字节,用于计算区号...

    Lucene笔记

    Lucene是一个高性能、全功能的文本搜索库,它被广泛应用于各种规模的应用程序之中。作为一款开源工具,Lucene提供了强大的搜索功能,使得开发者能够轻松地为自己的应用添加搜索功能。 #### 官方网站 - **网址**:...

    ES stack技术分享

    - Rsyslog:一个系统日志守护进程,能够将系统日志发送到网络中的其他服务器。 - Flume:是一个分布式、可靠且可用的服务,用于有效地收集、聚合和移动大量日志数据。 - Filebeat:用于文件数据的轻量级日志数据收集...

    木棉搜索引擎

    - 字段:一系列术语的集合。 - 术语:字符串,可以是单字或词语。 - **索引字段**:分为URL、标题、链接文字和内容四个部分。 - URL字段对应网页数据库中的URL。 - 标题和链接文字字段对应标题链接文字内容。 ...

    CNKI知识服务平台技术进展实用PPT学习教案.pptx

    提供分词和单字检索控制,以及词频、相关度和排序控制,使得用户可以更加精确地找到所需信息。同时,位置控制和精确模糊控制等检索控制选项增加了检索的灵活性。相似性检索功能的引入,进一步帮助用户找到相关的文献...

    Mysql全文搜索match against的用法

    MySQL全文搜索功能主要依赖于`MATCH()`和`AGAINST()`两个函数,用于在MyISAM表类型的字段上执行高效的文本搜索。以下是对标题和描述中所述知识点的详细说明: 1. **全文搜索的前提条件** - 表的存储引擎必须是...

    spring-redisearch:Spring+ RediSearch演示

    在IT行业中,Spring框架是Java开发中的一个基石,它提供了丰富的功能来构建高效、可测试且灵活的Java应用程序。而RediSearch是Redis的一个模块,它将强大的全文搜索引擎功能引入了内存数据存储。当我们结合Spring与...

Global site tag (gtag.js) - Google Analytics