`
laies
  • 浏览: 242960 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

维基百科收购网络爬虫公司挑战谷歌

阅读更多
       北京时间7月29日消息,据国外媒体报道,维基百科创始人吉米·威尔斯(Jimmy Wales)本周五公布了其社区搜索引擎的最新进展。威尔斯此前宣布,将通过自己新创建的商业公司Wikia,打造一个全新的搜索引擎,向市场垄断者谷歌发起挑战。

  威尔斯周五在一次软件开发者会议上表示,Wikia已经收购了一家名为“Grub”的公司,向推出搜索引擎的目标迈出了重要一步。Grub是一家“网络爬虫”(Web crawler)公司,未来的Wikia搜索引擎可以通过该公司的技术遍历整个互联网,为相关网站建立索引。威尔斯表示:“如果能为用户提供更好的搜索结果,我们就一定可以打破网络搜索市场的现有格局。我的看法也许不对,但正确的可能性更大。”

<script src="/ad/news/pic.js"></script>  Wikia创建于2004年,目前共有30多名员工,主要通过广告获得营收和利润。与维基百科类似,Wikia也采用了“任何人都可编辑”的运作模式,其网页由2000个不同社区来维护。威尔斯今年3月表示,Wikia将推出一款“开放源代码”搜索引擎,力争在全球网络搜索市场占据5%的份额。威尔斯还是非盈利项目维基百科(Wikipedia)的创始人,但维基百科和Wikia并没有正式的联系。

  威尔斯在接受国外媒体采访时表示,新搜索引擎的公开版本将于2007年底推出,它将把计算机算法和人力辅助编辑有机地结合在一起,从而为用户提供相关度更高的搜索结果。他说:“如果你使用谷歌搜索引擎,的确可以获得很多有用的搜索结果,但同时也会得到大量垃圾信息。由此可以看出,单纯依靠数学公式无法产生始终相关的搜索结果,人类的智慧将成为搜索的重要组成部分。”

  威尔斯透露,新搜索引擎将通过另一个开放源代码项目“Lucerne”生成搜索结果。他表示将对Lucerne进行增强,但并未公布更多细节。Wikia从LookSmart手中收购了Grub,该公司计划开放Grub,允许他人继续开发,或者将其整合到其它网站中。到目前为止,有关Wikia和LookSmart之间的交易条款尚未披露。

  迄今为止,Wikia已经获得了1400万美元的外部投资。在最新一轮融资中,Wikia获得了来自亚马逊的1000万美元投资。
分享到:
评论

相关推荐

    维基百科的下载及阅读方法简单说明(转载)借鉴.pdf

    维基百科下载及阅读方法简单说明 维基百科是一个在线百科全书,提供了丰富的信息资源,内容详实且多样化,对获取事情的真相具有很大的帮助。然而,维基百科上的信息不一定都是正确的,也有一些是不和谐的。加之,...

    维基百科类目层次结构提取

    维基百科类目层次结构提取是一项重要的数据挖掘任务,它涉及到对维基百科庞大的信息库进行有组织的、结构化的访问。...这对于我们掌握网络爬虫技术,尤其是针对特定网站结构的爬取,有着重要的实践价值。

    2021-2022年收藏的精品资料wikipedia维基百科综述.ppt

    维基百科是当前流行的网络技术,在网站中的运用非常普遍。在这一类型的网站中,维基百科的规模和影响力都是最大的。维基百科的成功得益于其树立的品牌意识。除此之外,在运营的过程中,品牌的维护也是非常重要的。...

    维基百科离线版【需自行下载.zim数据库】

    维基百科离线版 一个为了方便本地浏览维基百科查询资料而制作的 开源软件,程序的原理是利用维基百科 kiwix-tools 中的其中一个小工具:kiwix-serve 读取 .zim 格式的维基百科数据库文件,从而实现 http 方式多终端...

    中文维基百科hosts文件

    中文维基百科hosts文件,拷贝到C:\Windows\System32\drivers\etc目录下,经测试可使用

    wikipedia-crawler:一个简单的维基百科网络爬虫

    一个简单的 Python 维基百科爬虫。 运行: celery worker -A crawler.tasks --loglevel=info -Q fetch_queue -n 'fetcher' celery worker -A crawler.tasks --loglevel=info -Q parse_queue -n 'parser' 用于监控...

    英文维基百科语料库txt(9)

    标题中的“英文维基百科语料库txt(9)”指的是一个包含多个英文维基百科文本数据的压缩包,这些数据经过一系列预处理步骤,包括分词、去停用词、转换为小写、词干提取和词形还原,使得它们更适合用于自然语言处理...

    维基百科百科问答数据集

    《维基百科百科问答数据集》是一个专门为机器学习和自然语言处理任务设计的数据资源,它包含了大量的问答对,这些问题和答案都来源于广博且权威的维基百科平台。这个数据集是研究人员和开发者构建智能问答系统、信息...

    维基百科英文条目数据库

    《维基百科英文条目数据库解析》 维基百科,全球最大的开源知识库,拥有海量的英文条目信息。为了方便研究和分析,这些数据往往会被整理成数据库格式,供学者和技术人员使用。本数据库正是这样一个针对维基百科英文...

    维基百科中文离线包2020-05

    维基百科中文离线包zim格式,wikipedia_zh_all_maxi_2020-05.zim,使用kiwi打开

    维基百科社交网络拓扑结构

    这是一个描述在线社交网络拓扑结构的数据集,在复杂网络分析和社会化网络分析里面很有用,以节点和边的形式给出了网络结构。

    英文维基百科语料库txt(5)

    《英文维基百科语料库txt(5)》是一个经过精心预处理的文本资源,主要包含了一系列英文维基百科文章的文本数据。这个压缩包文件集合了多个文本文件,包括enwiki_33.txt到enwiki_42.txt,总计九个文件,为研究者和...

    中文维基百科语料库(截止2019年2月20日)

    这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来

    维基百科中文词向量.zip

    维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存...

    维基百科维基百科维基百科维基百科.txt

    网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接

    中文维基百科语料库百度网盘网址.txt

    本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人...

    英文维基百科语料库txt(7)

    《英文维基百科语料库txt(7):自然语言处理与人工智能的基石》 英文维基百科语料库是自然语言处理(NLP)领域的重要资源,它为研究者和开发者提供了丰富的文本数据,用于训练和测试各种算法。这份压缩包包含了一...

    正态分布 - 维基百科,自由的百科全书.pdf

    正态分布是统计学中非常重要的一个概念,其涵盖了多个数学、物理和工程领域中的应用。作为一种概率分布,正态分布具有独特的数学特征,并且在各种科学和工程问题中扮演着核心角色。正态分布以德国数学家卡尔·...

Global site tag (gtag.js) - Google Analytics