- 浏览: 1185547 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
本文根据 readwriteweb 的《 The Top 100 Alternative Search Engines 》改写而成。
现在问大家是怎么在互联网上查找到他们所需要的信息的,大多数人的回答肯定是“ Google ”(国内用户,多数人使用百度)。更深层次地看,市场研究表明人们实际上使用主要的四个搜索引擎,完成了 99.99% 的搜索: Google , Yahoo! , MSN ,和 Ask.com (以使用排序)。但是实际在在剩下的 0.01% 归于了大量你所见过的的最有创新和创意的搜索引擎。它们数量巨大,这里只罗列出前 100 个。这 100 个并不代表所有,它们都值得引起注意。其中的每一个搜索引擎都在他们首页底部的的“ About us ”链接内都说了他们为什么比“ Google ”更好。读了这些页面后,会得出一个结论:他们都是正确的。
可以从如下几个方面分析:
( 1 )搜索主页
为了系统的解释他们的声明,可以把他们归类并将其与 Google 的进行比较。 Google 搜索界面可谓无所不在,它的风格简洁,在一张干净的页面上放着彩色的 Google Logo ,正是这个简洁的页面在整个互联网上最为流行。因为对于成千上万的用户来说,这个页面就代表了整个互联网。换名话说, Google 已经成功地让他的主页成为了大多数人的互联网导航工具。
但是,再看看这强空白的页面,你会发觉相当的无味。因此某些搜索引擎开始在它的主页上显示更为丰富的内容,以 Ms. Dewey 为例,可能有的会反对它那令人激动行为,但你很难反对它界面上那视觉上的吸引力。第二个例子来自于 Simply Google 。它将 Google37 种搜索选项集成在一个页面上以一行一行地排列显示。
( 2 )人工智能
第二个领域有时候也称作自然语言处理( NLP ),或者说是人工智能( AI )。基本上我们每个人都有这样的需求:即用日常语句像咨询一个人一样提问,并得到相应的回答。许多人还记得 Ask Jeeves 吧,它曾在这方面做了个早期的尝试,不过很不幸的是最终失败了。
Google 的方法, Google 答案,罗列了一批“专家”骨干。这概念就是,如果你摆出一个问题给这些专家,商讨一个答案的合理价格,并在专家给出答案时付款。这是如此的一个错误, Google 不得不取消了整个计划。进入 ChaCha 试试。你可以在里面提一个你想知识的问题,点击“ Search With Guide ”按钮,一个 ChaCha 向导就出现在聊天窗口中,并和你对话,直到你找到你需要的。没有时间限制,也不收费。
( 3 )聚集引擎( Clustering Engines )、
也许 Google 最耀眼的不足是它坚持以一种一维的无限长的列表来展示搜索结果。其实我们已经知道 WWW 是一个三维的互联的网页网络。许多搜索引擎,以聚焦引擎出名,常规地以一种二维地图的方式展示结果,在这地图中可以导向到最佳搜索结果中。像 KartOO 和 Quintura 就是绝佳的例子。
( 4 )推荐型搜索引擎( Recommendation Search Engines )
另一个比较有前景的类型是推荐型搜索引擎。 Google 本质上是在帮你寻找你已经知识的东西,只是你找不到它而已,推荐型搜索引擎向你展示一整个世界的东西你可能并不知道它的存在。可以检查一下 What to Rent , Music Map , 或者 Live Plasma 。当你输入一个你喜欢的电影、书籍、艺术家的时候,他们会推荐一些相似的标题或者艺术家给你,你可能从来都没有听说过,但你可能会喜欢他们的。这实际上是一种推荐引擎,或者称作个性化推荐系统之类的。
(5)元搜索引擎( Metasearch Engines )
当你使用 Google 进行搜索时,所有的结果都来自于 Google 。但是元搜索引擎已经出现很多年了。他们可以让你不仅搜索 Google ,而且还有多种其他的搜索引擎,并都在一步完成。有多种搜索引擎都可以做这样的事情, Dogpile ,可以同时查找上面提到的主要四个搜索引擎。也可以试一下 Zuula 或者 PlanetSearch ,可以同时搜索 16 种搜索引擎。还有一个非常有意思值得一看的网站是 GoshMe 。它不是像传统搜索引擎那样搜索无限量的网页, GoshMe 在多个搜索引擎中查找,每个搜索引擎又利用了无限量的网页。正如我理解的, GoshMe 是一个仍在测试中的元搜索引擎。
其他的一些搜索引擎也有很多吸引人的特性。 TheFind 是一个更好的购特搜索。Like 是一个可视化搜索,不像Google 图片搜索,它可以像匹配你的关键字和图片(用相同的关键字标注了的)。再看看Mobot 。Google Mobile 的确可以让你在移动手机上进行搜索,但是你可以再看看Slifter Mobile Demo 你会发现另外一个机会的。
最后,Google 是沉默的。沉默!至少Speeglebot 可以对你讲话,Nayio 可以听你讲。但是,为什么Google 不担心这些呢?这些特性像围着大像转的苍蝇吗?Google 不能忽视它们,因为他们分享了市场份额?或者以后直接购买他们?也许吧。
下面列出这一百个网站吧:
- A9
- AOL
- AURA!
- blinkx
- boing
- bookmach.com
- BOXXET
- ChaCha
- ClipBlast!
- Clusty
- collarity
- CometQ
- CONGOO
- d e c i p h o
- del.icio.us
- digg
- digg labs swarm
- Ditto
- dumbfind
- exalead
- factbites
- fazzle
- FEEDS|2.0
- Feedster
- FindSounds
- GIGABLAST
- girafa
- gnn o d
- GoDefy
- goshme
- GoYams
- grokker
- ICEROCKET
- ixquick
- KartOO
- last.fm
- Lexxealpha
- like
- LiveDeal
- liveplasma
- Local.com
- lurpo
- MetaGlossary
- mnemomap
- Mojeek
- Mooter
- MrSAPO
- MS. DEWEY
- nayio
- Octora
- OiHoi Search
- Pagebull
- PlanetSearch
- pluggd
- PODZINGER
- Previewseek
- pronto.com
- QTsearch
- Quintura
- Releton
- retrevo gamma
- riya
- ROLLYO O
- SearchTheWeb2
- SEEQPOD
- sidekiq
- Simply Google
- Singing FISH
- Slideshow
- Slifter
- soople
- Speegle
- Sphider
- SPURL.net
- S R C H R
- SurfWax
- Swoogle
- TagJag!
- thefind.com
- Trexy
- turboscout
- UJIKO
- url.com
- VMGO.com
- Web 2.0
- Webaroo
- WEBBRAIN
- What to RENT?
- whonu?
- WIKIO
- WiseNut
- Yahoo! MINDSET
- yoono
- yoople
- yubnub
- YuFind
- ZABASEARCH
- zapmeta
- Zippy
- ZUULA
发表评论
-
认真阅读hadoop源码
2012-11-01 16:00 1791从新复习hadoop,认真阅读hadoop源码,有兴趣的朋友可 ... -
铁道部售票网站怎么啦?
2012-01-10 10:25 1884乐淘CTO李勇:库存同步是难点 我的判断,除了 ... -
eclipse启动报错jvm terminated. Exit code=1
2011-10-11 08:55 1236转载链接: http://wxmfly.itey ... -
ireport中获取当前时间
2011-08-28 11:53 5178一。 iReport 中获取系统当前时间 1,选择Tex ... -
ireport引java bean database
2011-08-27 10:38 1756今天帮一同事调试程序,他们的报表工具用的是ireport4.0 ... -
谈谈爬虫的设计
2011-08-07 22:27 2325网络蜘蛛现在开源的已 ... -
为了养家,只能这样!
2011-07-03 16:22 16还是一直在玩数据,hadoop平台(自己一手搭建),使用爬虫n ... -
陆续整理数据方面的资料
2011-05-07 08:58 638差不多有一个多月没写东西了,最近比较忙!还是研究数据一些东西。 ... -
挣钱养家
2011-04-14 22:19 1166如果各位有私活的话忙不过来,可以通过QQ(282215036) ... -
使用perl连接mysql数据库
2011-04-05 22:21 1443用Perl DBI连接MySQL数据库 Perl中一个最酷的 ... -
图像数字识别技术
2011-04-01 17:32 5944最近在研究图像数字识别技术,对于一些简单没有干扰的图片,可以读 ... -
对于处理问题的一点想法
2011-02-23 08:26 1125昨天快下班的时候,遇到一个建立索引的问题,因为快下班了,我没有 ... -
温故而知新
2011-02-20 16:44 1197又回过头来复习以前的知识了?在家里实在无聊!把之前学习过的东西 ... -
加钱也得买票回家过年
2011-01-25 08:44 988昨天从黄牛党手上拿了一张高价票。加了100.哎!这年头在外面忙 ... -
Eclipse3.6 Helios SVN插件–Subversive
2011-01-12 11:42 3658刚在Google Code上发布了一个Open Project ... -
博客有时候来不及更新,希望大家见谅!
2011-01-10 17:42 1017刚到新公司,可能开始忙了,博客有时候来不及更新,希望大家见谅! ... -
新公司入职第一天
2011-01-10 11:47 1336今天是我去新公司入职的第一天。感觉一切都是新的,从头开始!加油 ... -
java中各种算法的实现
2010-12-30 13:01 1167选择排序算法的JAVA实现 viewplainprin ... -
java基础知识复习
2010-12-30 13:00 1025学习Java一 配置环境变量 学习Java二 开发第一 ... -
开发人员应该记住的10句谚语
2010-12-13 23:32 1088所谓谚语,就是 ...
相关推荐
它负责爬取互联网上的信息,并将其转换为可供搜索的格式。在设计网络信息搜索程序时,需要考虑以下几个方面: 1. 爬虫的设计:爬虫是搜索引擎的爬虫模块,负责爬取互联网上的信息。爬虫的设计需要考虑到爬虫的效率...
本文将深入探讨搜索引擎的工作原理、架构组成、关键技术及其对现代社会的影响等方面,力求为读者提供一个全面且深入的理解。 #### 搜索引擎概述 搜索引擎是一种通过互联网自动搜索信息,并对搜索到的信息进行整理...
《自己动手写搜索引擎》这本书是面向对搜索引擎技术感兴趣的读者,特别是对搜索引擎的原理、实现机制以及如何构建一个简单的搜索引擎有探索欲望的人群。这是一份压缩包文件,包含了一个PDF文档,提供了关于搜索引擎...
一个典型的搜索引擎系统通常由以下几个主要部分组成: - 网络爬虫:负责抓取互联网上的网页,跟踪链接并获取新内容。 - 数据预处理:包括网页去重、HTML解析、内容提取、语言处理(如中文分词)等步骤。 - 索引构建...
通过以上技术的整合,该毕业论文项目提供了一个完整的搜索引擎实现,读者不仅可以学习到搜索引擎的基本原理,还可以了解到Java开发中常用框架的实际运用,为深入理解和开发类似系统打下坚实基础。在实际工程中,这样...
接下来,索引阶段是搜索引擎将抓取到的数据转化为可供快速查询的结构化信息。这通常涉及到文本分析、关键词提取、词干化和去除停用词等步骤。对于“仿百度搜索引擎”,这意味着它可能内置了类似百度的中文分词技术,...
ASP超级搜索程序通过集成多个搜索引擎,如Bing、Google、Baidu等,为用户提供了一个全面的搜索解决方案。用户可以根据自己的需求,在不同的搜索引擎间进行无缝切换,这不仅为用户节省了宝贵的时间,也使得搜索结果的...
"仿网易搜索引擎"是一个项目,旨在模仿网易搜索引擎的功能和界面,提供给用户一个类似的搜索体验。这个项目可能涉及到了多个IT领域的知识点,包括但不限于前端开发、后端开发、数据库设计、网页交互以及搜索引擎优化...
标题中的"(C#开源搜索引擎).rar"表明这是一个与C#编程语言相关的开源搜索引擎项目。开源意味着源代码可供公众查看、使用、修改和分发。这个压缩包可能包含了一个完整的搜索引擎解决方案,供开发者学习、研究或者在...
文本分析是将原始的文本数据转换成可供搜索的形式,如分词、去除停用词等。索引构建则是将处理后的文本数据构建成倒排索引,这是一种高效检索的数据结构。最后,搜索是通过用户输入的查询与索引进行匹配,返回最相关...
随着互联网的迅速发展和信息量的爆炸性增长,搜索引擎已成为人们获取信息不可或缺的工具。无论是寻找学术资料、娱乐资源还是商业信息,人们越来越依赖于搜索引擎来高效地完成任务。然而,尽管搜索引擎在日常生活中...
一个高效的搜索引擎会采用倒排索引、模糊匹配、相关性排序等技术,确保用户输入关键词后能迅速返回最相关的商品结果。此外,个性化推荐也是现代电商搜索引擎的重要特性,通过分析用户的购物历史、浏览行为,推送更...
综合以上内容,我们不难发现,搜索引擎不仅是一个简单的查询工具,其背后隐藏着一套复杂的技术体系。了解这些核心技术,对于想要深入研究和开发搜索引擎的人来说至关重要。同时,我们也要意识到,这些技术的开发和...
综上所述,"夸搜高仿百度搜索引擎源"是一个包含爬虫和竞价排名功能的PHP搜索引擎系统,适合学习和研究搜索引擎的工作原理,同时也可作为搭建个性化搜索引擎的基础。它提供了从网页抓取到结果展示的全套流程,且附带...
搜索引擎代码是用于构建和实现搜索引擎核心功能的程序代码。搜索引擎的主要任务是对互联网上的海量信息进行抓取、索引和检索,...而提供的压缩包“搜索引擎”可能包含了实现这些功能的部分源代码,可供学习和研究使用。
《搜索引擎:原理、技术与系统》是一本深入探讨搜索引擎核心概念、技术和实现的权威书籍。这本书涵盖了搜索引擎的各个方面,从基础理论到实际操作,旨在帮助读者理解并掌握搜索引擎的工作原理和构建方法。以下是对该...
在日常生活中,我们通常会使用诸如Google、百度等主流搜索引擎来获取信息,但你是否想过,我们也能自己开发一个搜索引擎呢?实现这一目标需要学习和掌握相关的技术工具,其中两个非常重要的工具就是Lucene和Heritrix...
搜索引擎是互联网上不可或缺的信息检索工具,而蜘蛛搜索程序(也称为网络爬虫或网页抓取机器人)则是搜索引擎背后的重要技术之一。这种程序通过自动化的方式遍历互联网上的页面,收集并索引网页内容,从而帮助用户...
Nutch是建立在Lucene基础上的一个开源网络爬虫项目,用于抓取网页并建立可供搜索的索引。Nutch的源码可能包含爬虫的配置、数据存储、URL管理和分发等功能。虽然这个压缩包未提供Nutch的源码,但在学习Lucene的同时,...