1常用搜索引擎
搜索引擎是我们现在网络生活中已经离不开的东西,能上网的人基本上都会用它。
目前我们用的比较多的搜索引擎是google,baidu这两个,程序员一般都有google,中国人大部分用baidu,google的英文搜索做的比较好!baidu的中文分词比较强,虽然它有时候应为一些商业的目的性不怎么受欢迎。。。。,雅虎其实也是比较受欢迎的。
2其他的搜索引擎
主要有 http://www.sougo.com
http://www.soso.com
http://www.altavista.com
http://www.youdao.com
还有就是北大天网,这个据说是军方用的。比较老了。
3搜索引擎的分类。
按领域分:
通用搜索引擎:google,baidu(主要是服务范围比较广)
垂直搜索引擎:针对冒一个领域。
信息类型分:
网页
声音
视频
图片
工作方式分:
基于目录的:手工收集
基于爬虫的:爬虫收集
元搜索引擎:借助别人的搜索
4搜索引擎的阶段:
初级阶段:Archie系统
第一代:yahoo,altavista,主要是手工收集
第二代:爬虫
第三代:研发中
5未来发展趋势:
社区化:SNS
个性化:
智能化:
分享到:
相关推荐
《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...
一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合开源工具的小型搜索引擎构建.pdf 用_Hadoop_进行分布式...
### Nutch全文搜索学习笔记 #### 一、Nutch安装与配置 **1. Linux环境下的JDK安装** 为了能够顺利地安装并运行Nutch,首先确保系统中已安装Java Development Kit (JDK) 并且正确配置了`JAVA_HOME`环境变量。如果...
Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...
这个学习笔记主要涵盖了Lucene的基本概念,包括索引、文档、域和项,以及安装配置和索引的基本过程。 1. **基本概念** - **索引(Index)**:索引是Lucene的核心,它是由一系列文档组成的。每个索引包含了对文档...
Lucene是Apache软件基金会的一个开放源代码项目,它是一个全文搜索引擎库,提供了文本检索和分析的核心工具。作为一个高性能、可扩展的信息检索库,Lucene被广泛应用于各种搜索应用,如网站搜索、文档检索、日志分析...
- **2004年**:Cutting和Cafarella开始开发Nutch项目,这是一个开源搜索引擎项目。 - **2006年**:在Google发布的关于GFS和MapReduce的研究报告启发下,他们开始着手创建Hadoop项目,目的是为了提供一个低成本的...
Doug Cutting在Lucene的基础上开发了Nutch搜索引擎,后发展为Hadoop。 5. **Hadoop组件**: - HDFS(Hadoop分布式文件系统):提供高容错性和高吞吐量的数据存储。 - MapReduce:分布式计算框架,用于大规模数据...
随着需求的增长,Cutting与Mike Cafarella合作,开发了Nutch,一个基于Lucene的开源搜索引擎项目,旨在提供类似Google的全网搜索功能。随着互联网的爆炸式增长,数据量激增,Google的GFS(Google File System)和...