最新文章列表

jsearch的索引文件结构

jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。   jsearch的索引文件结构定义如下:     1、一个词的索 ...
yangshangchuan 评论(0) 有3812人浏览 2015-05-19 04:40

怎样通过词频得到这个词频的排序?

     在大规模检索中,我们怎样通过已经的词频得到词频的排序? 通俗点讲,就是当我知道“java”这个词的频率是x,那么"java"到底在排在第几位呢?       大规模数据中,有一个重要的法则叫“齐普夫法则”,它描述为第k个出现次数最多的词汇,它的词频与1/k成正比。这个法则的发现过程一点都不科学,齐普夫是这样干的:找到一本大部头的书籍,统计不同词汇出现的次数并排序,发觉词 ...
AngelAndAngel 评论(0) 有2070人浏览 2012-12-03 14:35

中科院分词ICTCLAS5.0 配置错误处理

中科院分词ICTCLAS5.0 配置错误处理 (已上传) 将rar文件解压后,将文件中的所有内容,放入工程的bin文件下。 新建包,包名:ICTCLAS.I3S.AC.ICTCLAS50 在 ...
李小抽SuperITGirl 评论(0) 有5480人浏览 2012-10-31 23:05

Lucene01---几个概念理解

  在http://xdwangiflytek.iteye.com/blog/1386439里我简单的介绍了一下SEO,下面来学习一下Lucene技术,这部分先来理解几个概念。 信息检索概念:        信 ...
xdwangiflytek 评论(0) 有1811人浏览 2012-02-01 22:50

文本数据挖掘(Text Data Mining)

文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。 按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。   基于单文档的数据挖掘对文档的分 ...
housen1987 评论(0) 有4615人浏览 2012-01-02 22:03

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics