`

jsearch的索引文件结构

阅读更多

jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。

 

jsearch的索引文件结构定义如下:

    1、一个词的索引由=分割的三部分组成:
        
第一部分是词
        
第二部分是这个词在多少个文档中出现过(上限1000
        
第三部分是倒排表
    2
、倒排表由多个倒排表项目组成,倒排表项目之间使用|分割
    3
、倒排表项目的组成又分为三部分,用_分割:
        
第一部分是文档ID
        
第二部分是词频
        
第三部分是词的位置
    4
、词的位置用:分割
    
    
例如:
    shingles=31=47466_1_2|1_1_6|1_1_1|2_1_5|67_1_1|903_1_3|17_1_5|1_3_4:6:11
    
表示词 shingles 的索引:
    
词:shingles
    
 31 个文档包含 shingles 这个词
    
包含这个词的第一篇文档的ID47466
    shingles 
的词频是1,出现 shingles 的位置是2
    
文档内容为:
    A better solution is to use shingles, which are compound tokens created 
    from multiple adjacent tokens.
    
对文档内容进行分词并移除停用词之后的结果为:
    [solution, shingles, compound, tokens, created, multiple, adjacent, tokens]
    
    
包含这个词的第二篇文档的ID47466+1=47467
    shingles 
的词频是1,出现 shingles 的位置是6
    
文档内容为:
    Lucene has a sandbox module that simplifies adding shingles to your index, 
    described in section 8.3.2
    
对文档内容进行分词并移除停用词之后的结果为:
    [lucene, sandbox, module, simplifies, adding, shingles, index, section]
    
    
包含这个词的第八篇文档的ID47466+1+1+2+67+903+17+1=48458
    shingles 
的词频是3,出现 shingles 的位置分别是4611
    
文档内容为:
    For example the sentence “please divide this sentence into shingles” 
    might be tokenized into the shingles “please divide”, “divide this”, 
    “this sentence”, “sentence into” and “into shingles”
    
对文档内容进行分词并移除停用词之后的结果为:
    [sentence, divide, sentence, shingles, tokenized, shingles, divide, divide, sentence, sentence, shingles]
    
    
这里需要注意的是位置不是和原文一一对应的,而是和去除停用词后的位置一一对应的
    停用词的定义看这里的链接
分词使用word分词提供的针对纯英文文本的分词器

 

   
    

 

 

 

3
1
分享到:
评论

相关推荐

    jSearch聚搜是一款专注内容的chrome搜索扩展一次搜索聚合多平台内容

    至于“dubox-jSearch-6d95fc4”这个压缩包文件,可能是jSearch的一个特定版本或更新包。"dubox"可能是指该扩展在某个云存储服务(如百度网盘)中的保存位置,而"6d95fc4"可能是版本号或者是代码仓库中的一个特定提交...

    全文检索工具包jsearch.zip

    jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。 标签:jsearch

    JSearch-开源

    "JSearch-开源" 指的是 JSearch 是一个开源的项目,意味着它的源代码是公开的,允许用户查看、修改和分发。这通常意味着社区驱动的开发,用户可以参与到项目的改进中,同时也享有更高的透明度和可定制性。 **描述...

    JSearchTool_RC_1.0_src

    同时,源码还提供了扩展和改进的基础,可以根据具体需求进行定制化开发,例如添加新的索引结构、优化算法或者集成更多的文本处理技术。 总之,JSearchTool_RC_1.0_src是一款利用倒排索引和TVSM技术实现的搜索应用,...

    JSearch:为您的网站生成一个javascript搜索字段-开源

    轻量级基于Javascript客户端的搜索... 程序(.NET)生成Javascript搜索索引,并为您提供代码以在您的网站中轻松实现它。 教程视频:http://www.youtube.com/watch?v=yj7_JKQ49YM我的投资组合中的演示:www.bert.co.nr

    JSearch:Java搜索库

    JSearch是一个Java库,其中包含用于在图形的两个顶点之间查找路径的算法。 它提供了经典的搜索算法(深度优先,广度优先,A *等),可以在实现SearchProblemInterface任何问题上运行。 是应用程序的一个示例。 状态...

    jSearch:jSearch(聚搜)是一种专注内容的chrome搜索扩展,一次搜索聚合多平台内容

    jSearch(聚搜)是一种专注内容的chrome搜索扩展,一次搜索聚合多平台内容; 支持google,百度,Bing(国际版)三大搜索引擎 支持自定义搜索站点 支持微信公众号&公众号文章搜索 收藏夹搜索,历史记录搜索 支持...

    基于jquery+html5+bootstarp 制作的搜索框和菜单(图标)的翻转特效.zip

    8. **源码组织**:"Jsearch-master"目录很可能包含了项目的源代码文件(HTML、CSS、JavaScript)、图片资源、字体文件和其他相关文档,遵循一定的文件结构以便于管理和维护。 通过学习和理解这个项目,开发者可以...

    存储过程-触发器-ODBC数据库编程-实验报告.pdf

    下面是创建 jsearch 存储过程的 SQL 语句: ```sql CREATE Procedure jsearch(@SPJ_JNO char(10)) AS BEGIN SELECT SNAME, PNAME, JNAME FROM SPJ, S, P, J WHERE @SPJ_JNO = SPJ.JNO AND SPJ.JNO = J.JNO AND...

    西北工业大学数据库实验报告5.doc

    在实验中,将视图"V_SPJ"重命名为"V_SPJ_",这一步骤展示了如何通过T-SQL语句对数据库中的对象进行元数据级别的修改,确保数据库结构的清晰和规范。 接下来,实验重点在于创建和执行存储过程。存储过程是预编译的...

    数据库实验报告三.doc

    - 创建一个带有参数的存储过程`jsearch`,用于查询特定工程项目的信息。 - 创建一个加密的存储过程`jmsearch`,用于查询来自北京的供应商信息。 - 查看存储过程的文本信息。 - 执行加密存储过程`jmsearch`。 - ...

    存储过程-触发器-ODBC数据库编程-实验报告整理.pdf

    例如,`jsearch`是一个带参数的存储过程,接收一个工程代号作为输入,然后返回与该工程相关的供应商名称、零件名称和工程名称。它通过连接S表、P表、J表和SPJ表来实现这一功能。`jmsearch`则是另一个存储过程,但它...

    数据库实验3

    例如,使用`sp_rename`系统存储过程更改视图名称,创建带参数的存储过程`jsearch`以根据输入的工程代号查询供应商、零件和工程信息,创建带有输出游标参数的`jsearch2`存储过程,以及创建加密存储过程`jmsearch`来...

    jTrainer:CPE云计算项目

    - Servlets 开发 - JTrain(训练计划的管理,添加) - JTrainingTask(添加异步 Servlet 的队列) - JTrainer(带有消息的主页) - JSearch(域的显示,搜索) - JFixtures(数据库的初始化) -> TO BE启动 ...

Global site tag (gtag.js) - Google Analytics