`
zjkgzl
  • 浏览: 5204 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
阅读更多
    开源搜索:所谓开源搜索是指源代码公开的搜索引擎,这就不同于咱们平时一般用的商业搜索引擎比如google ,yahoo ,等,他们这些搜索引擎公司的搜索引擎核心技术是不对外开放的。在现在这个互联网高速发展的信息时代,谁抓住了搜索引擎就抓住了互联网的精髓,那就是客户。有了客户具有了流量 有了用户的粘性就会促使搜索引擎的大大普及。搜索引擎的对人民甚至在某些方面和国家的影响力也越来越多。像google等搜索引擎公司的搜索对用户是免费的但是他的搜索引擎的核心技术不是对外开放的,这就导致搜索引擎具有对在互联网获取信息的垄断。
  而开源搜索引擎的出现就给搜索引擎带来了新的希望。
  开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音
  说道开源搜索引擎不得不说到维基百科。美国时间1月7日,42岁的维基百科(Wikipedia)创始人JimmyWales正式发布维基搜索(WikiaSearch)服务.维基百科的历史以及1400万美元资金的资助名单,让人不敢小觑维基搜索上市,但是这个与众不同的搜索引擎,真的能撼动谷歌、雅虎的地位吗?
  [3] 美国时间1月7日,42岁的维基百科(Wikipedia)创始人JimmyWales正式发布维基搜索(WikiaSearch)服务.
  与7年前维基百科诞生时的默默无闻不同,维基搜索自去年7月威尔斯公开提及后就备受瞩目,大家都想知道这款不同于传统搜索引擎的维基搜索是否会撼动谷歌、雅虎的地位.对此,威尔斯谨慎地表示,他只是将在线百科全书的协作方法引入搜索领域,至少短期内不会威胁到当前主流搜索引擎.是这样吗?
  不满,早在意料中
  尽管包括中文在内的许多语言还都无法使用,但使用过维基搜索的人会明显感到它的不同.如果没有找到搜索内容,网页会提醒用户“提供帮助”,也就是撰写短文:对关键词进行简要描述,比如定义、同义词、参考短文、图像等.这样,其他用户今后再搜索时就会有更丰富的结果.这有些像维基百科,秉承“众人拾柴火焰高”的原则,借助群众的力量打造一个优秀的搜索引擎.
  维基搜索推出3天后,美国的网络杂志《信息周刊》就发表文章表达了不少用户对维基搜索的不满,但这完全在威尔斯的意料之中.作为一种搜索引擎,特别是需要用户大量参与的搜索引擎,维基搜索需要时间提供相关的搜索结果.威尔斯说:“不要指望维基搜索一开始就可以提供能与谷歌相媲美的搜索结果,这根本不可能.1月7日是'软发行',维基搜索需要时间.”
  威尔斯是一个沉得住气的人,在他2001年推出维基百科时,几乎没什么人看好这个“网上的百科全书”.1999 年10月20日价值1250美元(大约9000元人民币)的32卷本《大英百科全书》全部上网,供人们免费查询与下载.这在当年是轰动一时的新闻,也给 33岁的威尔斯一个灵感:建立一个真正“开放、免费”的网络百科全书.
  事实上,这个灵感在他见到沃德·坎宁安 (WardCunningham)前是很难实现的.威尔斯学金融出身,他在美国印第安那大学取得经济学博士学位,研究方向是期权定价.当他还在芝加哥的外汇市场如鱼得水时,美国人坎宁安开发了一种在Web基础上对文本进行浏览、创建、更改的社群协作式写作技术,并把它命名为wiki,意为“快点快点”的夏威夷语缩写.
  2001年,威尔斯把wiki技术变成了维基百科全书,英文版的维基百科全书于当年1月15日正式问世.在短短一个月时间内,维基的条目达到了200条,一年之后增加到1.8万条.2004年9月,维基百科全书的条目达到100 万条,此时它的投资总额达到50万美元,其中大部分是威尔士的个人投资,主要源于他早年在芝加哥金融市场的建树.
  维基百科经过时间的长期沉淀,体现出了巨大价值.威尔斯凭借社区的影响力把维基百科打造成了一家知名的网络信息源.他说:“维基百科刚开始也是一无所有,经过7年的发展壮大,今天维基百科已经成了互联网领域第8大网站.如果用户有一种拥有者的感觉,那么他们就会继续使用该工具,这就是我们所要努力的方向.”
  令人不敢小觑
  回顾维基百科的历史,让人不敢小觑威尔斯的每一步探索.他在2004年成立了营利性公司WikiaInc.( 而维基百科是非营利性的),提供可以让任何人轻松搭建维基系统的软件平台,维基搜索就是该公司的项目之一.威尔斯在进军搜索领域前,并不指望叫板谷歌.但他有着自己的打算:改变用户网络搜索的方式.
  维基搜索1400万美元资金的资助名单似乎意味着业界十分看好这款搜索引擎:亚马逊(提供1000万美元)、贝西默风险投资合伙人公司(BessemerVenturePartners)、网景通讯公司 (NetscapeCommunications) 创始人之一马克·安德森(MarcAndreesen)、美国第六大社交网站LinkedIn的创始人之一里德·霍夫曼(ReidHoffman)、莲花发展公司(LotusDevelopment)的创始人兼电子前沿基金会(ElectronicFrontierFoundation) 的创始人之一米切尔·卡普尔(MitchKapor).
  [2]20款开源搜索引擎系统
  一些开源搜索引擎系统介绍,包含开源Web搜索引擎和开源桌面搜索引擎。
  Sphider
  Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改,已经有数千网站在使用它。
  RiSearch PHP
  RiSearch PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch PHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。
  PhpDig
  PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。
  OpenWebSpider
  OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。
  Egothor
  Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。
  Nutch
  Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
  Lucene
  Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。
  Oxyus
  是一个纯java写的web搜索引擎。
  BDDBot
  BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。
  Zilverline
  Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。
  XQEngine
  XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。
  MG4J
  MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术。
  JXTA Search
  JXTA Search是一个分布式的搜索系统。设计用在点对点的网络与网站上。
  YaCy
  YaCy基于p2p的分布式Web搜索引擎。同时也是一个Http缓存代理服务器。这个项目是构建基于p2p Web索引网络的一个新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等。
  Red-Piranha
  Red-Piranha是一个开源搜索系统,它能够真正”学习”你所要查找的是什么。Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等。
  LIUS
  LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。
  Apache Solr
  Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
  Paoding
  Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
  Carrot2
  Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。
  Regain
  regain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法,因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供了较好的支持。
  Regain提供了两种版本:桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上,为网站及局域网环境下的文件服务器进行搜索。
分享到:
评论

相关推荐

    (C#开源搜索引擎).rar

    标题中的"(C#开源搜索引擎).rar"表明这是一个与C#编程语言相关的开源搜索引擎项目。开源意味着源代码可供公众查看、使用、修改和分发。这个压缩包可能包含了一个完整的搜索引擎解决方案,供开发者学习、研究或者在...

    开源搜索平台solr.pdf

    Apache Solr 是一个流行的开源搜索服务器,它通过使用类似 REST 的 HTTP API,这就确保你能从几乎任何编程语言来使用 solr。 Solr 是一个开源搜索平台,用于构建搜索应用程序。 它建立在 Lucene(全文搜索引擎)

    c# 开源搜索引擎完整的例子

    本主题聚焦于一个特别的应用场景——"c# 开源搜索引擎",这是一个利用C#构建的开源搜索引擎项目,提供了完整的源代码供学习和参考。 搜索引擎的核心功能包括数据收集(爬虫)、索引构建、查询处理和结果展示。以下...

    Java开源搜索引擎分类列表.rar

    Java开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava开源搜索引擎分类列表.rarJava...

    开源搜索引擎,solr

    建立索引,检索,分词,分类,开源搜索引擎,solr

    国内首例开源搜索引擎分词

    《国内首例开源搜索引擎分词:云寻觅的探索与实践》 在信息化时代,搜索引擎作为获取信息的重要工具,其核心之一就是分词技术。分词是自然语言处理中的基础步骤,它将连续的文本流分割成具有独立意义的词语,从而为...

    基于lucene和nutch的开源搜索引擎资料集合

    其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...

    几种常见的基于Lucene的开源搜索解决方案对比

    几种常见的基于Lucene的开源搜索解决方案对比,大家参考一下。

    开源搜索网站开源搜索网站

    开源搜索网站是基于开放源代码技术构建的搜索引擎,它们允许用户访问、查看、修改和贡献其源代码,促进了技术的共享与创新。开源搜索引擎通常由全球开发者社区共同维护,为用户提供自定义、可扩展和高度可配置的搜索...

    开源搜索引擎sphider

    开源搜索引擎Sphider是一款专为小型到中型网站设计的搜索引擎解决方案,由PHP编写,以MySQL作为后端数据库。它的核心优势在于其轻量级、高效且易于部署和定制,使得许多不懂复杂编程的网站管理员也能为其网站添加...

    PHP实例开发源码-开源搜索引擎整合系统 Seeknove.zip

    PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip

    《迅速搭建全文搜索平台—开源搜索引擎实战教程》作者于天恩—代码

    在本教程中,作者于天恩提供了关于如何迅速搭建全文搜索平台的开源搜索引擎实战指导。全文搜索平台是一种高效的信息检索系统,它允许用户通过输入关键词快速查找相关文档或数据。开源搜索引擎由于其开放性、可定制性...

    迅龙中文Web搜索引擎(.NET)-开源的搜索引擎程序C#编写

    迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其强大的文本处理和搜索算法,能够有效地处理中文分词和...

    基于PHP的Yioopphp开源搜索引擎系统源码.zip

    "基于PHP的Yioopphp开源搜索引擎系统源码.zip" 这个标题揭示了我们讨论的主题是一个使用PHP编程语言开发的开源搜索引擎系统。Yioopphp是这个系统的名称,它是一个用于创建自定义搜索引擎的平台,允许用户抓取、索引...

    PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip

    【标题】"PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip" 是一个基于PHP编程语言的开源项目,旨在实现一个搜索引擎整合系统。这个系统可能涵盖了多种搜索引擎接口的集成,便于用户通过单一的API或者界面来...

    ShootSearch (基于dotlucene的c#开源搜索引擎)

    ShootSearch是一个c#编写的基于dotlucene的开源搜索引擎.其目标是能够检索http,ftp,本地,本地网络邻居四类资源. 已经完成http部分. 测试DEMO: 新浪&搜狐首页开始所有www开头的主机,13分钟54.5 MB 985个文件 60...

    JAVA源码开源搜索系统Red-Piranha

    JAVA源码开源搜索系统Red-Piranha

    lucene架构――开源搜索架.jpg

    lucene架构――开源搜索架

    java资源开源搜索系统Red-Piranha

    java资源开源搜索系统 Red-Piranha提取方式是百度网盘分享地址

Global site tag (gtag.js) - Google Analytics