`
chen_yongkai
  • 浏览: 62098 次
  • 性别: Icon_minigender_1
  • 来自: 福州
文章分类
社区版块
存档分类
最新评论

用Java实现搜索引擎布尔运算

阅读更多
索引类:

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

public class Index implements Serializable {
	/**
	 * 
	 */
	private static final long serialVersionUID = 7362753433812661741L;
	private Map<String, BitSet> indexMap;

	private void writeObject(ObjectOutputStream out) throws IOException {
		// 压缩
		ByteArrayOutputStream buf = new ByteArrayOutputStream();
		ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
		objOut.writeObject(indexMap);
		objOut.close();
		out.writeObject(buf.toByteArray());
	}

	@SuppressWarnings("unchecked")
	private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
		byte[] buf = (byte[]) in.readObject();
		ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
				new ByteArrayInputStream(buf)));
		indexMap = (Map<String, BitSet>) objIn.readObject();
		objIn.close();
	}

	public Index(int indexSize) {
		int initialCapacity = indexSize * 4 / 3;
		indexMap = new HashMap<String, BitSet>(initialCapacity);
	}

	public Index() {
		this(12);
	}

	public void setId(Collection<String> c, int id) {

		for (String key : c) {
			BitSet bit = indexMap.get(key);
			if (bit == null) {
				bit = new BitSet();
				indexMap.put(key, bit);
			}
			bit.set(id);
		}
	}

	public void setId(String[] c, int id) {

		for (String key : c) {
			BitSet bit = indexMap.get(key);
			if (bit == null) {
				bit = new BitSet();
				indexMap.put(key, bit);
			}
			bit.set(id);
		}
	}

	public int[] getIdSetWithAnd(String... keys) {
		checkKeys(keys);
		int n = keys.length;
		BitSet[] bits = new BitSet[n];
		int i = 0;
		for (String key : keys) {
			BitSet bit = indexMap.get(key);
			if (bit != null) {
				bits[i++] = bit;
			}
		}
		if (i == 0)
			return null;
		BitSet bit = (BitSet) bits[0].clone();
		for (int j = 1; j < i; j++) {
			bit.and(bits[j]);
		}
		return getIdSet(bit);
	}

	public int[] getIdSetWithOr(String... keys) {
		checkKeys(keys);
		int n = keys.length;
		BitSet[] bits = new BitSet[n];
		int i = 0;
		for (String key : keys) {
			BitSet bit = indexMap.get(key);
			if (bit != null) {
				bits[i++] = bit;
			}
		}
		if (i == 0)
			return null;
		BitSet bit = (BitSet) bits[0].clone();
		for (int j = 1; j < i; j++) {
			bit.or(bits[j]);
		}
		return getIdSet(bit);
	}

	private static void checkKeys(String... keys) {
		if (keys == null)
			throw new NullPointerException("keys is null.");
		if (keys.length < 2) {
			throw new IllegalArgumentException("keys' length is less than 2.");
		}
	}

	public int[] getIdSet(String key) {
		BitSet bit = indexMap.get(key);
		if (bit == null)
			return null;
		else {
			return getIdSet(bit);
		}
	}

	private int[] getIdSet(BitSet bit) {
		int n = bit.size();
		int[] ids = new int[n];
		int j = 0;
		for (int i = 0; i < n; i++) {
			if (bit.get(i)) {
				ids[j++] = i;
			}
		}
		if (j == n)
			return ids;
		else {
			int[] arr = new int[j];
			System.arraycopy(ids, 0, arr, 0, j);
			return arr;
		}
	}
}



小小测试:

import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;

import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;

public class IndexTest {

	/**
	 * @param args
	 */
	public static void main(String[] args) throws Exception {
		//统计一下运行时间
		long time = System.currentTimeMillis();
		File file = new File("d:/index.dat");

		Index data = null;
		try {
			//到从文件读取序列化对象
			data = SerializeUtils.readObject(file);
		} catch (Exception ex) {
			final Index index = new Index(4000);
			final Pattern pattern = Pattern.compile("\\s+");//简单的分词
			FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {

				@Override
				protected void processLine(String line) throws IOException {
					String[] words = pattern.split(line);
					//一行一条记录
					index.setId(words, this.getLineNumber());
				}
			};

			fp.process();
			data = index;
			//序列化存储到文件
			SerializeUtils.writeObject(data, file);
		}
		//查找存在下列单词的行号
		int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
		System.out.println(Arrays.toString(ids));
		System.out.println(ids.length);
		System.out.println(System.currentTimeMillis() - time);
	}

}

分享到:
评论

相关推荐

    基于Ruby+Java搜索引擎原理与实现

    《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...

    基于JAVA技术搜索引擎的设计与实现.zip

    《基于JAVA技术搜索引擎的设计与实现》是一份深入探讨如何利用JAVA技术构建搜索引擎的详细文档。在信息技术日益发达的今天,搜索引擎已经成为人们获取信息的主要途径,而掌握其设计原理和技术实现对于IT专业人士至关...

    解密搜索引擎技术实战 LUCENE & JAVA(第3版)PDF

    在《解密搜索引擎技术实战 LUCENE & JAVA(第3版)》中,作者罗刚会逐步引导读者理解搜索引擎的基本原理,如倒排索引、TF-IDF算法、布尔运算等。同时,他会讲解如何使用LUCENE API进行索引的创建、更新和删除,以及...

    java实现倒排索引表的布尔查询

    在计算机科学领域,倒排索引是一种用于快速检索大量数据的有效方法,特别是在全文搜索引擎和数据库系统中广泛应用。本文将深入探讨如何使用Java实现一个简单的倒排索引表,并结合布尔查询进行文本搜索。 首先,我们...

    解密搜索引擎技术实战Java精华版(高清完整版)

    本书最后可能会提供一个完整的Java搜索引擎实战项目,让读者有机会亲手实践前面所学的知识,从设计到实现,全面掌握搜索引擎的开发流程。 通过阅读《解密搜索引擎技术实战Java精华版》,读者不仅能深入理解搜索引擎...

    解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt

    《解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt》是一部深入探讨搜索引擎技术的著作,特别关注于使用Java实现的开源全文搜索引擎库——Lucene。本书结合了理论与实践,旨在帮助读者理解搜索引擎的...

    Java搜索引擎源码+论文

    总的来说,这个Java搜索引擎源码和论文的资源对于想深入了解搜索引擎工作原理、C/S架构实现以及Java编程技术的人来说极具价值。无论是对搜索引擎技术的理论研究,还是对Java编程实践,都有很大的帮助。通过深入学习...

    基于java的文本搜索引擎的设计与实现源码.zip

    《基于Java的文本搜索引擎设计与实现》 在信息技术飞速发展的今天,搜索引擎已经成为了人们获取信息的重要工具。本文将深入探讨一个基于Java语言实现的文本搜索引擎的设计与实现,旨在为开发者提供一种有效的信息...

    文件或文件夹搜索引擎

    在给定的标签“Java”中,我们可以推断这是一个使用Java编程语言实现的搜索引擎。Java是一种多平台、面向对象的编程语言,具有良好的可移植性和高效性,因此它是构建这种应用程序的理想选择。 文件搜索引擎的基本...

    开发自己的搜索引擎

    3. **查询处理**:用户输入查询后,搜索引擎需要解析查询、执行布尔运算、排名算法(如PageRank或BM25)以确定结果顺序。 4. **结果展示**:将查询结果以用户友好的方式呈现,可能包括摘要、相关度评分、链接等。 ...

    人工智能-项目实践-搜索引擎-针对于JDK1.8的文档做的搜索引擎

    综上所述,构建针对JDK 1.8的搜索引擎是一个涵盖多方面技术的综合实践,包括信息爬取、文本处理、索引构建、查询处理、相似度计算、Java编程、搜索引擎库的使用以及前端展示和性能优化。这个项目可以锻炼开发者在...

    《开发自己的搜索引擎--Lucene+Heritrix》 pdf

    通过学习Lucene,开发者能够理解搜索引擎背后的索引原理和查询机制,从而实现自定义的搜索功能。 Heritrix则是一个网络爬虫框架,用于抓取互联网上的网页数据,是构建搜索引擎的第一步。Heritrix具有可配置性高、可...

    Lucene搜索引擎的设计与实现毕业设计论文.doc

    搜索引擎是信息时代的核心工具,它在...通过本次毕业设计,学生可以深入理解搜索引擎的原理,掌握Lucene等工具的使用,并了解如何提升搜索引擎的性能和用户体验。这对于未来在信息技术领域的工作具有重要的实践意义。

    基于Solr的搜索引擎研究与实现

    《基于Solr的搜索引擎研究与实现》 在信息化飞速发展的今天,搜索引擎已经成为了人们获取信息、解决问题的重要工具。Apache Solr,作为一个开源的企业级搜索平台,因其强大的全文检索、分布式处理、高可扩展性以及...

    自制小的文字搜索引擎

    2. **查询解析(Query Parser)**:`QueryParser.java`可能实现了对用户输入的查询字符串进行解析的功能,将其转化为搜索引擎可以理解的结构化形式,比如分词和布尔表达式。 3. **数据库管理(Database Management...

    ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文).rar

    在ASP.NET中,开发者可能使用C#作为编程语言,结合ASP.NET MVC或Web Forms架构来设计和实现这个搜索引擎。他们可能还使用了Entity Framework等ORM工具来与数据库交互,存储和管理搜索日志、用户偏好等信息。 此外,...

    北风网Lucene搜索引擎源码及PPT

    Lucene,一个由Apache软件基金会开发的全文检索库,是Java平台上的一个开源搜索引擎框架。这个标题所提及的“北风网Lucene搜索引擎源码及PPT”,显然是一份关于Lucene的深度学习资源,包含源代码和教学课件,旨在...

    开发自己的搜索引擎lucene+heritrix(第2版)(heritrixProject源码)

    Lucene的核心功能包括索引和搜索文本,支持布尔运算、短语搜索、近似搜索、模糊搜索、排序以及多种分词策略。此外,Lucene还提供了高级特性,如多字段搜索、文档评分和实时更新索引。 Heritrix,另一方面,是互联网...

    搜易站内搜索引擎(基于Lucene开发的,.NET平台下免费的站内搜索)

    3. **全文检索**:不仅支持关键词匹配,还能进行短语搜索、近似搜索和布尔运算,提升用户搜索体验。 4. **多语言支持**:Lucene支持多种字符集和分词器,搜易站内搜索引擎继承了这一特点,能处理不同语言的文本。 5....

    Java检索引擎

    Java检索引擎是基于Java开发的全文搜索引擎...通过深入学习和实践这两个项目,开发者不仅可以掌握Java全文检索的基本技能,还可以了解到搜索引擎的实现细节,这对于开发自定义的搜索应用或者改进现有系统都非常有帮助。

Global site tag (gtag.js) - Google Analytics