`
chenhua_1984
  • 浏览: 1252237 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

lucene+nutch学习笔记一:搜索引擎的一些常识

阅读更多

     1常用搜索引擎

     搜索引擎是我们现在网络生活中已经离不开的东西,能上网的人基本上都会用它。

目前我们用的比较多的搜索引擎是google,baidu这两个,程序员一般都有google,中国人大部分用baidu,google的英文搜索做的比较好!baidu的中文分词比较强,虽然它有时候应为一些商业的目的性不怎么受欢迎。。。。,雅虎其实也是比较受欢迎的。

     2其他的搜索引擎

    主要有  http://www.sougo.com

                 http://www.soso.com

                 http://www.altavista.com

                 http://www.youdao.com

              还有就是北大天网,这个据说是军方用的。比较老了。

     3搜索引擎的分类。

              按领域分:

                        通用搜索引擎:google,baidu(主要是服务范围比较广)

                        垂直搜索引擎:针对冒一个领域。

              信息类型分:

                         网页

                         声音

                         视频

                         图片

               工作方式分:

                         基于目录的:手工收集

                         基于爬虫的:爬虫收集

                         元搜索引擎:借助别人的搜索

   4搜索引擎的阶段:

              初级阶段:Archie系统

              第一代:yahoo,altavista,主要是手工收集

              第二代:爬虫

              第三代:研发中

   5未来发展趋势:

             社区化:SNS

             个性化:

             智能化:

0
0
分享到:
评论

相关推荐

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    基于lucene和nutch的开源搜索引擎资料集合

    一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合开源工具的小型搜索引擎构建.pdf 用_Hadoop_进行分布式...

    Nutch全文搜索学习笔记

    ### Nutch全文搜索学习笔记 #### 一、Nutch安装与配置 **1. Linux环境下的JDK安装** 为了能够顺利地安装并运行Nutch,首先确保系统中已安装Java Development Kit (JDK) 并且正确配置了`JAVA_HOME`环境变量。如果...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    Lucene学习笔记

    这个学习笔记主要涵盖了Lucene的基本概念,包括索引、文档、域和项,以及安装配置和索引的基本过程。 1. **基本概念** - **索引(Index)**:索引是Lucene的核心,它是由一系列文档组成的。每个索引包含了对文档...

    lucene笔记

    Lucene是Apache软件基金会的一个开放源代码项目,它是一个全文搜索引擎库,提供了文本检索和分析的核心工具。作为一个高性能、可扩展的信息检索库,Lucene被广泛应用于各种搜索应用,如网站搜索、文档检索、日志分析...

    Hadoop阶段初识学习笔记

    - **2004年**:Cutting和Cafarella开始开发Nutch项目,这是一个开源搜索引擎项目。 - **2006年**:在Google发布的关于GFS和MapReduce的研究报告启发下,他们开始着手创建Hadoop项目,目的是为了提供一个低成本的...

    Hadoop学习笔记

    Doug Cutting在Lucene的基础上开发了Nutch搜索引擎,后发展为Hadoop。 5. **Hadoop组件**: - HDFS(Hadoop分布式文件系统):提供高容错性和高吞吐量的数据存储。 - MapReduce:分布式计算框架,用于大规模数据...

    ElasticSearch笔记

    随着需求的增长,Cutting与Mike Cafarella合作,开发了Nutch,一个基于Lucene的开源搜索引擎项目,旨在提供类似Google的全网搜索功能。随着互联网的爆炸式增长,数据量激增,Google的GFS(Google File System)和...

Global site tag (gtag.js) - Google Analytics