0 0

关于建立一个开源搜索引擎的选择30

这两天公司老总想让我写一份报告是关于搜索引擎的,公司需要做一个搜索引擎,我在网上看了一下开源的代码,Lucene只是一部分,而nutch则比较的完整,我想问一下我该怎么搭建搜索引擎的环境,比如索引功能用什么,爬虫用什么,还是说就用nutch,另外我们公司用的数据库时mysql,主要是中文搜索

2011年3月31日 16:13

1个答案 按时间排序 按投票排序

0 0

用过nutch,但是感觉太庞大了,需要潜心研究才行;
做够搜索,一直想整爬虫,还没有想好怎么整,如果可能还是先研究一下nutch的爬虫。

2011年4月11日 19:38

相关推荐

    一个C#写的开源搜索引擎代码

    本篇文章将深入探讨一个基于C#编写的开源搜索引擎源码项目,通过分析其主要组件和工作流程,为读者揭示C#在搜索引擎开发中的应用技巧和核心概念。 首先,从提供的文件列表来看,我们可以看到项目中包含了一些关键的...

    开源搜索引擎,solr

    建立索引,检索,分词,分类,开源搜索引擎,solr

    开源搜索平台solr.pdf

    Apache Solr 是一个流行的开源搜索服务器,它通过使用类似 REST 的 HTTP API,这就确保你能从几乎任何编程语言来使用 solr。 Solr 是一个开源搜索平台,用于构建搜索应用程序。 它建立在 Lucene(全文搜索引擎)

    制作简单的搜索引擎,构建倒排索引

    总的来说,这个项目为你提供了一个动手实践搜索引擎的机会,通过这个过程,你将深入理解信息检索的核心技术,并且能够构建自己的简单搜索引擎。在实际应用中,现代搜索引擎会涉及更复杂的技术,如TF-IDF、BM25等排名...

    MP3聚合搜索引擎(PHP开源).rar

    通过深入研究和理解这个开源项目,开发者不仅可以学习到如何构建一个MP3搜索引擎,还能提升PHP编程、Web开发、数据抓取等方面的技术能力。对于想涉足音乐类Web应用开发的个人或团队,这是一个宝贵的实践平台。

    HiGo垂直搜索引擎系统开源版(基于lucence mysql asp.net) v2.2.rar

     HiGo垂直搜索引擎开源版系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence mysql asp.net, 支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊...

    开源php搜索引擎-蜘蛛程序

    【开源php搜索引擎-蜘蛛程序】是一种基于PHP和MySQL的轻量级搜索引擎实现,它被设计为一个蜘蛛程序,能够自动地爬行指定的网站,抓取网页内容,并对其进行处理,生成关键词和索引。这样的系统对于提升网站的用户体验...

    开源搜索框架lucene介绍

    ### 开源搜索框架Lucene介绍 #### 一、Lucene简介 Lucene是一款非常优秀且成熟的开源全文索引检索工具包,它完全采用Java语言编写,由Doug Cutting于1999年创建,并于2001年10月捐赠给了Apache基金会,成为Apache...

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法

    Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache Hadoop进行分布式计算,提升处理大规模数据集的能力。在Nutch中,recrawl是指对已经抓取过的网页重新进行抓取,以更新或...

    基于PHP的Yioop php开源搜索引擎系统.zip

    PHP Yioop 是一个基于PHP语言开发的开源搜索引擎系统,旨在为用户提供高效、可定制化的网络爬虫和搜索解决方案。它不仅能够抓取网页并建立索引,还提供了社区论坛、聊天室、邮件系统等附加功能,使其成为一个全面的...

    java搜索引擎大全.zip

    Java搜索引擎通常基于Lucene库,它是Apache软件基金会的一个开源项目,提供了一个高性能、可扩展的信息检索库。搜索引擎的工作流程主要包括索引和查询两个阶段。索引阶段,搜索引擎会读取数据源(如文本文件、...

    PHP实例开发源码-Yioop php开源搜索引擎系统.zip

    Yioop是一个基于PHP语言的开源搜索引擎系统,它提供了一种高效、灵活的方式来构建和管理网络数据的索引。这个项目不仅展示了PHP在大规模数据处理上的能力,还体现了其在Web搜索领域的应用。通过深入学习和研究Yioop...

    开源企业搜索引擎SOLR的应用教程.pdf

    本文档是一个关于如何应用Apache Solr的企业教程,涵盖了安装配置、应用模式、定制索引和搜索服务、性能调优以及故障排查等多个方面。 首先,文档介绍了Solr的基本概念和特性,强调了Solr对Lucene的扩展以及支持的...

    十三、ElasticSearch(开源搜索引擎)

    【Elasticsearch 开源搜索引擎详解】 Elasticsearch(简称 ES)是一个高度可扩展的开源全文检索引擎,基于 Apache Lucene 构建。它不仅提供强大的搜索功能,还具备数据分析和实时数据分析的能力,广泛应用于日志...

    开发自己的搜索引擎 lucene + heritrix

    首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。Lucene 的主要优势在于其强大的搜索能力、高效率、灵活性以及易于集成等特点。它支持全文索引和搜索,并能够...

Global site tag (gtag.js) - Google Analytics