互联网专栏最新文章

lucene-MultiPharseQuery带前缀和后缀查询

1、根据add方法顺序不同,从前到后依次是前缀,后缀,后缀后跟的单字。 2、 MultiPharseQuery query=new MultiPharseQuery(); Term t1=new Term("bookname","钢"); Term t2=new Term("bookname","和"); qu ...
deepfuture 有1975人浏览 2009-12-24 08:46 专栏:lucene等搜索引擎解析

lucene-SpanQuery精解和与正则RegexQuery精解

1、SpanTermQuery:与TermQuery一样。 Term t=new Term("contenct","david"); SpanTermQuery query=new SpanTermQuery(t); 2、SpanFirstQuery:从first的内容起始位置开始,在一个固定的宽度内查找所指定的词条。 Term t=new Term( ...
deepfuture 有2617人浏览 2009-12-24 08:45 专栏:lucene等搜索引擎解析

lucene-QueryParser

1、QueryParser在lucene2.0中所有操作建立在QueryParser实例的基础上 2、 String field="bookname"; String queryStr="java struts"; QueryParser parser=new QueryParser(field,new standardAnalyzer()); ...
deepfuture 有2131人浏览 2009-12-24 08:43 专栏:lucene等搜索引擎解析

lucene-检索结果的翻页问题

使用缓存+多次查询+数据库 1、在用户第一次查询后,将结果放在session。这里所说的结果指的是除了当前页外,另外再缓存一部分结果,比如后5页的结果。 2、这样,当用户翻页时,会先从session缓存中查看当前页是否被缓存。 3、如果是,则取出,直接返回给用户,如果不是,则进行索引的检索, 取出当前页内容返回,并更新缓存。 4、在缓存和多次查询的基础上,用数据库来缓解一部分访问压力,在用户 ...
deepfuture 有1824人浏览 2009-12-24 08:41 专栏:lucene等搜索引擎解析

lucene-多Field搜索与多索引搜索

1、多域搜索 MultiFieldQueryParser提供了3个静态方法 1)在不同的Field进行不同的查找 public static Query parse(String[] queries,String[] fields,Analyzer analyzer) throws ParseE ...
deepfuture 有3914人浏览 2009-12-24 08:41 专栏:lucene等搜索引擎解析

lucene-处理中文PDF的xpdf

简单处理中文的方式是xpdf http://www.foolabs.com/xpdf/home.html 2、 Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called 'Acrobat' files, from the nam ...
deepfuture 有2139人浏览 2009-12-24 08:40 专栏:lucene等搜索引擎解析

lucene-封装的搜索架构compass

compass是一套使用了lucene的搜索引擎架构,提供了一套开源的、高性能的、可灵活配置的搜索架构,类似于hibernate进行pojo封装
deepfuture 有1918人浏览 2009-12-24 08:39 专栏:lucene等搜索引擎解析

lucene-JE中文分词

1、比较好的JAVA写的JE分词http://jesoft.cn:9080/je-analysis-1.5.3.jar,官网http://www.jesoft.cn/ 2、提供相关的API //采用正向最大匹配的中文分词算法,相当于分词粒度等于0MMAnalyzer analyzer = new MMAnalyzer();//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来MM ...
deepfuture 有3850人浏览 2009-12-24 08:39 专栏:lucene等搜索引擎解析

网络爬虫调研报告

基本原理 Spider概述 Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。 Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成
deepfuture 有4689人浏览 2009-12-23 20:32 专栏:lucene等搜索引擎解析

nutch-build.xm解读

nutch-build.xm解读 搜索引擎与人工智能 2009-05-09 19:16 阅读4评论0 字号: 大大 中中 小小 花了很多时间来读这个build.xml,并不是这个包不好读,相 ...
deepfuture 有2321人浏览 2009-12-23 20:12 专栏:lucene等搜索引擎解析

nutch1.0在eclipse下的成功编译要注意事项

有以下要点要注意: 1、在WINDOWS的环境变量中要正确指定JDK目录 2、build.xml编译报错, Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection. 将下面几行的前几行(从61行开始直到下面的<copy todir="${conf.dir} ...
deepfuture 有2097人浏览 2009-12-23 20:01 专栏:lucene等搜索引擎解析

为Nutch 1.0添加JE中文分词

先下载Nutch 1.0的源文件: svn co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识别) modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”l ...
deepfuture 有2512人浏览 2009-12-23 19:52 专栏:lucene等搜索引擎解析

ubuntu下nutch-1.0的安装和配置错误排除

一、安装JDK(笔者推荐使用原生的方式安装SUN-JDK6 一、保证TOMCAT的正常安装 二,下载nutch-1.0,解压后,并将它拷贝到/opt/目录下。cd /opt/nutch-1.0root@fjadmin-webcrawler:/opt/nutch-1.0# sh bin/nutch crawl一般来说没有设置JAVA_HOME等环境,会报以下错误:[: 72: ==: unex ...
deepfuture 有5920人浏览 2009-12-23 19:51 专栏:lucene等搜索引擎解析

nutch-JE分词

先下载Nutch 1.0的源文件: co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0 更改查询语法解析部分: 改变tokenize的方式(原来为中文单字识 ...
deepfuture 有1420人浏览 2009-12-23 19:39 专栏:lucene等搜索引擎解析

Nutch 的配置

Nutch 的配置文件几乎覆盖了Nutch 所有的功能。以前在网上看到过一个关于Nutch-default.XML 配置项解释,地址我没收藏,和本文配合起来看,会更好一些。这里我也不打算对其配置文件中的每一项做解释,如果在下面的解释里找不到想要的内容,请发表评论,我会回复的。 <property><name>http.max.delays</name><v ...
deepfuture 有2340人浏览 2009-12-23 19:32 专栏:lucene等搜索引擎解析

lucene入门-复杂索引建立

一个document包括多个field,以一个document为了一个单元建立索引,下例包括2个document: package bindex;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac ...
deepfuture 有1294人浏览 2009-12-23 19:26 专栏:lucene等搜索引擎解析

lucene入门-索引网页

  package bindex;import java.io.File;import tool.FileText;import java.io.IOException; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.index ...
deepfuture 有2016人浏览 2009-12-23 19:21 专栏:lucene等搜索引擎解析

lucene入门-索引目录下的所有网页以及索引检索

  package bindex;import java.io.File;import tool.FileText;import tool.FileList;import java.io.*; import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.l ...
deepfuture 有1674人浏览 2009-12-23 19:15 专栏:lucene等搜索引擎解析

lucene-使用CJKTokenizer分词

二分法分词 package busetoken; import org.apache.lucene.analysis.cjk.CJKTokenizer;import org.apache.lucene.analysis.Token; import java.io.IOException;import java.io.StringReader; public class UseCjk { / ...
deepfuture 有2894人浏览 2009-12-23 19:12 专栏:lucene等搜索引擎解析

lucene-使用自带中文分词器

使用lucene内自带的,在contrib/analyzerslucene-analyzers-2.9.0.jar 即单字分析 package busetoken; import java.io.IOException;import java.io.StringReader; import org.apache.lucene.analysis.Token;import org.apache. ...
deepfuture 有2856人浏览 2009-12-23 19:01 专栏:lucene等搜索引擎解析

互联网热门专栏

更多专栏>>

互联网热门文章

博客专栏评论

...
zl378837964 评论了 美团在Redis上踩过的一些坑-目录(本人非 ...
写的很是清楚了,我找到一份中文协议:https://mcxiaoke.gitbooks.io/mqtt ...
ipodao 评论了 MQTT入门(6)- 主题Topics
还行
Cavani_cc 评论了 MQTT入门(6)- 主题Topics
学习学习
jinmh716 评论了 Git 版本控制工具介绍(一)
请问从哪里看出慢查询的,怎么查找的能具体说说嘛
sunnyhappylg 评论了 慢查询引起的redis-clusterdown
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库、http、文件读写操作等等,支持编写j ...
MCLoginandPwd 评论了 git文件存储原理解析(八)
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库、http、文件读写操作等等,支持编写j ...
MCLoginandPwd 评论了 spring-data-jpa原理探秘(4)-JpaQueryE ...
什么时候用dockerfile build image,什么时候拉取镜像?
ming1259 评论了 30天了解30种技术系列(15)----Docker多容器 ...
yanan0628 写道 爷大帝
carlosfu 评论了 Redis-Cluster实战--5.使用redis-cli安装
...
yanan0628 评论了 Redis-Cluster实战--5.使用redis-cli安装
Global site tag (gtag.js) - Google Analytics