- 浏览: 28206 次
- 性别:
- 来自: 北京
最新评论
-
jerry.chen:
学习,,,,,,,,,,,
Nutch搜索引擎分析 -
lianshisheng:
Asdpboy 写道嗯,讲得挺详细,不过,请问这个讲完了吗?
...
Lucene结果分页 -
Asdpboy:
嗯,讲得挺详细,不过,请问这个讲完了吗?
Lucene结果分页
文章列表
○一个简单的文本邮件
我们的第一个例子是利用你本地的邮件服务器向"John Doe"发送一个基本邮件信息。
import org.apache.commons.mail.SimpleEmail;
...
SimpleEmail email = new SimpleEmail();
email.setHostName("mail.myserver.com");
email.addTo("jdoe@somewhere.org", "John Doe");
email.setFrom(&quo ...
- 2009-09-11 18:13
- 浏览 1133
- 评论(0)
[关键词]:ant,zip,unzip,Apache,压缩,解压,中文乱码,ZipEntry 先前写了一篇blog《使用org.apache.tools.zip实现zip压缩和解压》 ,现对它进行了改进:找出了几个Bug,修改了部分代码,增加了注释,添加了图形界面,打了个可执行包,双就可以运行了。源代码如下,希望大家多提意见。MyZip.java:
package myzip;
import java.io.*;
import javax.swing.*;
import java.awt.*;
import java.awt.event.*;
import myzip.Ant ...
- 2009-08-25 23:02
- 浏览 5733
- 评论(0)
一、系统架构 总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引,两者都使用索引中的字 ...
- 2009-08-25 22:58
- 浏览 1252
- 评论(1)
开源搜索引擎聚合开源搜索引擎工具包1.Lucene (http://lucene.apache.org/)Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。同其他开源项目一样,Lucen ...
- 2009-08-25 22:57
- 浏览 1827
- 评论(0)
下载:可以去Apache的官方网页http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的Nutch,目前最新版是nutch-0.9,65M大小。解压缩,进入bin/就能用。安装辅助软件(运行环境):①JDK,Nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量NUTCH_JAVA_HOME为java虚拟机的安装目录。②Tomcat,还必须安装Apache's Tomcat 4.x 以上版本。最后,想得到较好的运行效果,必须有至少1G的剩余空间和一个 ...
- 2009-08-25 22:55
- 浏览 1823
- 评论(0)
package com;
import java.util.*;
import java.lang.Runtime.*;
import java.io.*;
public class UnRarTest {
public static void main(String[] args) throws Exception
{
Scanner in=new Scanner(System.in);
System.out.println("输入你要解压的文件(包括路径,后缀)");
String filename=in.nextLine ...
- 2009-08-25 22:49
- 浏览 3724
- 评论(0)
Lucene结果分页Lucene结果分页一 ,Hits对象是搜索结果的集合 主要有下面几个方法
在session中保留indexreader对象和hit对象,翻页的时候提取内容 不使用session,每次都简单处理为重新查询 lucene推荐先使用第二个办法,即每次都重 ...
- 2009-08-25 22:36
- 浏览 2286
- 评论(2)
1)Apache的首页 http://lucene.apache.org/java/docs/index.html 里面包含的file format应该是开始了解lucene的必读内容,Query Syntax描述输入关键词得语法。当然,结合程序代码一起看会效果更好。2)lucene 倒排索引的原理 http://www.zhangl ...
- 2009-08-25 22:34
- 浏览 1491
- 评论(0)
1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。 Lucene.net中的单个字段查询大家都比较熟悉,这里对字段content进行搜索
Query query = QueryParser.Parse(querystr,"content",new ChineseAnalyzer());
Hits hits = searcher.Search(query);
对多个字段查询用到一个MultiFieldQu ...
- 2009-08-25 22:33
- 浏览 1159
- 评论(0)
Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram. 这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多. Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram. 这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多. 经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错. 简要介绍一下: TjuChineseAnlyzer的功能强大,在中文分词方面使用JNI ...
- 2009-08-25 22:30
- 浏览 1558
- 评论(0)
文章来源:http://blog.csdn.net/xiaodaoxiao ... /09/10/1203959.aspx 最近要做一个站内的全文检索功能,主要是针对clob字段的,于是去网上找了点lucene的资料,现在新版本的是2.0.0,网上的例子多是1.4.3的,有些方法已经废弃了,搞了n久终于把2.0.0的功能实现了,呵呵,下面把实现的代码贴出来,实现了索引的创建、检索和删除功能,并可以从检索结果去查询数据库~
// 创建索引
public void indexFiles() {
// 创建索引文件存放路径
File indexDir = new Fi ...
- 2009-08-25 22:26
- 浏览 859
- 评论(0)
用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量索引,还是重建索引.对于从数据库中读取的记录,譬如要为文章建立索引,我们可以记录文章的id号,然后下次再次建立索引的时候读取存下的id号,从此id后往下继续增加索引,逻辑如下.建立增量索引,主要代码如下
public void createIndex(String ...
- 2009-08-25 22:24
- 浏览 1486
- 评论(0)
慢慢开始读Lucene源代码,首先就从高亮显示开始吧,因为最近才看过这个,而且好像是新版本后来加上的。我的方案:从实例逐一解决源代码。需要分析的实例代码:
package org.apache.lucene.search.highlight;
import java.io.IOException;
import java.io.StringReader;
import junit.framework.TestCase;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.ana ...
- 2009-08-25 22:20
- 浏览 3033
- 评论(0)
本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。
<!--START RESERVED FOR FUTURE USE INCLUDE FILES--><!-- include java script once we verify teams wants to use this and it will work on dbcs and cyrillic characters --><!--END RESERVED FOR FUTURE USE INCLUDE FILES-->
Luce ...
- 2009-08-25 22:13
- 浏览 842
- 评论(0)