索引类:
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;
public class Index implements Serializable {
/**
*
*/
private static final long serialVersionUID = 7362753433812661741L;
private Map<String, BitSet> indexMap;
private void writeObject(ObjectOutputStream out) throws IOException {
// 压缩
ByteArrayOutputStream buf = new ByteArrayOutputStream();
ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
objOut.writeObject(indexMap);
objOut.close();
out.writeObject(buf.toByteArray());
}
@SuppressWarnings("unchecked")
private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
byte[] buf = (byte[]) in.readObject();
ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
new ByteArrayInputStream(buf)));
indexMap = (Map<String, BitSet>) objIn.readObject();
objIn.close();
}
public Index(int indexSize) {
int initialCapacity = indexSize * 4 / 3;
indexMap = new HashMap<String, BitSet>(initialCapacity);
}
public Index() {
this(12);
}
public void setId(Collection<String> c, int id) {
for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}
public void setId(String[] c, int id) {
for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}
public int[] getIdSetWithAnd(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.and(bits[j]);
}
return getIdSet(bit);
}
public int[] getIdSetWithOr(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.or(bits[j]);
}
return getIdSet(bit);
}
private static void checkKeys(String... keys) {
if (keys == null)
throw new NullPointerException("keys is null.");
if (keys.length < 2) {
throw new IllegalArgumentException("keys' length is less than 2.");
}
}
public int[] getIdSet(String key) {
BitSet bit = indexMap.get(key);
if (bit == null)
return null;
else {
return getIdSet(bit);
}
}
private int[] getIdSet(BitSet bit) {
int n = bit.size();
int[] ids = new int[n];
int j = 0;
for (int i = 0; i < n; i++) {
if (bit.get(i)) {
ids[j++] = i;
}
}
if (j == n)
return ids;
else {
int[] arr = new int[j];
System.arraycopy(ids, 0, arr, 0, j);
return arr;
}
}
}
小小测试:
import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;
import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;
public class IndexTest {
/**
* @param args
*/
public static void main(String[] args) throws Exception {
//统计一下运行时间
long time = System.currentTimeMillis();
File file = new File("d:/index.dat");
Index data = null;
try {
//到从文件读取序列化对象
data = SerializeUtils.readObject(file);
} catch (Exception ex) {
final Index index = new Index(4000);
final Pattern pattern = Pattern.compile("\\s+");//简单的分词
FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {
@Override
protected void processLine(String line) throws IOException {
String[] words = pattern.split(line);
//一行一条记录
index.setId(words, this.getLineNumber());
}
};
fp.process();
data = index;
//序列化存储到文件
SerializeUtils.writeObject(data, file);
}
//查找存在下列单词的行号
int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
System.out.println(Arrays.toString(ids));
System.out.println(ids.length);
System.out.println(System.currentTimeMillis() - time);
}
}
分享到:
相关推荐
《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...
《基于JAVA技术搜索引擎的设计与实现》是一份深入探讨如何利用JAVA技术构建搜索引擎的详细文档。在信息技术日益发达的今天,搜索引擎已经成为人们获取信息的主要途径,而掌握其设计原理和技术实现对于IT专业人士至关...
在《解密搜索引擎技术实战 LUCENE & JAVA(第3版)》中,作者罗刚会逐步引导读者理解搜索引擎的基本原理,如倒排索引、TF-IDF算法、布尔运算等。同时,他会讲解如何使用LUCENE API进行索引的创建、更新和删除,以及...
在计算机科学领域,倒排索引是一种用于快速检索大量数据的有效方法,特别是在全文搜索引擎和数据库系统中广泛应用。本文将深入探讨如何使用Java实现一个简单的倒排索引表,并结合布尔查询进行文本搜索。 首先,我们...
本书最后可能会提供一个完整的Java搜索引擎实战项目,让读者有机会亲手实践前面所学的知识,从设计到实现,全面掌握搜索引擎的开发流程。 通过阅读《解密搜索引擎技术实战Java精华版》,读者不仅能深入理解搜索引擎...
《解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt》是一部深入探讨搜索引擎技术的著作,特别关注于使用Java实现的开源全文搜索引擎库——Lucene。本书结合了理论与实践,旨在帮助读者理解搜索引擎的...
总的来说,这个Java搜索引擎源码和论文的资源对于想深入了解搜索引擎工作原理、C/S架构实现以及Java编程技术的人来说极具价值。无论是对搜索引擎技术的理论研究,还是对Java编程实践,都有很大的帮助。通过深入学习...
《基于Java的文本搜索引擎设计与实现》 在信息技术飞速发展的今天,搜索引擎已经成为了人们获取信息的重要工具。本文将深入探讨一个基于Java语言实现的文本搜索引擎的设计与实现,旨在为开发者提供一种有效的信息...
在给定的标签“Java”中,我们可以推断这是一个使用Java编程语言实现的搜索引擎。Java是一种多平台、面向对象的编程语言,具有良好的可移植性和高效性,因此它是构建这种应用程序的理想选择。 文件搜索引擎的基本...
3. **查询处理**:用户输入查询后,搜索引擎需要解析查询、执行布尔运算、排名算法(如PageRank或BM25)以确定结果顺序。 4. **结果展示**:将查询结果以用户友好的方式呈现,可能包括摘要、相关度评分、链接等。 ...
综上所述,构建针对JDK 1.8的搜索引擎是一个涵盖多方面技术的综合实践,包括信息爬取、文本处理、索引构建、查询处理、相似度计算、Java编程、搜索引擎库的使用以及前端展示和性能优化。这个项目可以锻炼开发者在...
通过学习Lucene,开发者能够理解搜索引擎背后的索引原理和查询机制,从而实现自定义的搜索功能。 Heritrix则是一个网络爬虫框架,用于抓取互联网上的网页数据,是构建搜索引擎的第一步。Heritrix具有可配置性高、可...
搜索引擎是信息时代的核心工具,它在...通过本次毕业设计,学生可以深入理解搜索引擎的原理,掌握Lucene等工具的使用,并了解如何提升搜索引擎的性能和用户体验。这对于未来在信息技术领域的工作具有重要的实践意义。
《基于Solr的搜索引擎研究与实现》 在信息化飞速发展的今天,搜索引擎已经成为了人们获取信息、解决问题的重要工具。Apache Solr,作为一个开源的企业级搜索平台,因其强大的全文检索、分布式处理、高可扩展性以及...
2. **查询解析(Query Parser)**:`QueryParser.java`可能实现了对用户输入的查询字符串进行解析的功能,将其转化为搜索引擎可以理解的结构化形式,比如分词和布尔表达式。 3. **数据库管理(Database Management...
在ASP.NET中,开发者可能使用C#作为编程语言,结合ASP.NET MVC或Web Forms架构来设计和实现这个搜索引擎。他们可能还使用了Entity Framework等ORM工具来与数据库交互,存储和管理搜索日志、用户偏好等信息。 此外,...
Lucene,一个由Apache软件基金会开发的全文检索库,是Java平台上的一个开源搜索引擎框架。这个标题所提及的“北风网Lucene搜索引擎源码及PPT”,显然是一份关于Lucene的深度学习资源,包含源代码和教学课件,旨在...
Lucene的核心功能包括索引和搜索文本,支持布尔运算、短语搜索、近似搜索、模糊搜索、排序以及多种分词策略。此外,Lucene还提供了高级特性,如多字段搜索、文档评分和实时更新索引。 Heritrix,另一方面,是互联网...
3. **全文检索**:不仅支持关键词匹配,还能进行短语搜索、近似搜索和布尔运算,提升用户搜索体验。 4. **多语言支持**:Lucene支持多种字符集和分词器,搜易站内搜索引擎继承了这一特点,能处理不同语言的文本。 5....
Java检索引擎是基于Java开发的全文搜索引擎...通过深入学习和实践这两个项目,开发者不仅可以掌握Java全文检索的基本技能,还可以了解到搜索引擎的实现细节,这对于开发自定义的搜索应用或者改进现有系统都非常有帮助。