0 0

实现网络爬虫与搜索引擎技术都需要配备什么样的资源?0

公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用。我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据。

6个答案 按时间排序 按投票排序

0 0

采纳的答案

我以前做过信息检索,写过爬虫解析过网页,可能可以给您一些提示。
首先流程正如@y_x 所说,各个阶段需要用到的工具就如@mayufenga1 所说。
1、网络爬虫。这个有许多开源工具,spiderman,crawler,solar,nutch也可以用,轻量的话wget也可以用。基本上属于配置一些参数就可以开始抓取了。
2、索引工具。这个也有很多开源工具,著名的Lucene是其中之一。
3、索引完之后就有完整的数据库了,这个时候可以使用自己的工具对业务数据进行解析和进一步操作,爬虫的功能就完成了。
4、需要注意的是定期更新数据,因为网页链接是会经常更新的。
5、为了能更好地工作,linux系统是必须的。

2014年7月21日 16:00
0 0

1.写个爬虫把网页爬下来
2.页面解析,获取更多的链接
3.构建链接库
4.动态更新链接及抓取调度级别

2014年7月21日 10:46
0 0

需要找个做过爬虫和搜索的人, 比如我这种, 呵呵.

2014年7月21日 09:39
0 0

solar + nutch+ lunce +linux系统。。  完毕。。。

2014年7月21日 08:56
0 0

原理基本一致,不过阁下要计划下爬行的深度算法。广度优先还是深度优先,一般一个网页的子集页面深度10个以内就差不多了。做好页面分析和你的业务数据提取。另外,可以参考开源软件,这块比较多的,Spiderman,jSpider等等

2014年7月21日 00:11
0 0

你要写个爬虫程序去爬别人的网站。httpclient
然后要分析内容jsoup,提出你想要的东西。

2014年7月21日 00:02

相关推荐

    JAVA基于网络爬虫的搜索引擎设计与实现.pdf

    "JAVA基于网络爬虫的搜索引擎设计与实现" 本文档主要讨论了基于Java的网络爬虫搜索引擎的设计和实现。以下是从该文档中提炼出的相关知识点: 一、搜索引擎概述 * 搜索引擎是指通过网络爬虫或蜘蛛来收集、处理和...

    网络爬虫+搜索引擎+C#源码

    网络爬虫和搜索引擎是互联网数据挖掘与信息处理的两个重要技术。它们在现代信息技术中扮演着不可或缺的角色,尤其是在大数据分析、市场研究、竞争对手分析、内容推荐系统等方面。 网络爬虫,也称为网络蜘蛛或Web...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    ### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...

    爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密

    在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...

    搜索引擎中网络爬虫的研究

    搜索引擎中网络爬虫的研究 论文 武汉理工大学硕士学位论文 第1章引言 1.1选题背景 人类社会的发展离不开知识的获取与发现,进入互联网时代以后,信息出现 了飞速地增长,对于网络上不断涌现的各种信息,人们的接受...

    搜索引擎中网络爬虫技术的发展

    随着互联网的迅猛发展,搜索引擎技术也随之快速进步,成为人们在网络海洋中获取信息的重要工具。搜索引擎的效能直接关系到用户能否快速准确地找到所需信息。其中,网络爬虫作为搜索引擎的关键组成部分,在数据采集...

    自己动手写搜索引擎和网络爬虫

    在IT领域,搜索引擎和网络爬虫是两个非常关键的技术,它们是互联网信息获取与处理的基础。搜索引擎用于高效地检索和返回互联网上的相关信息,而网络爬虫则是搜索引擎获取数据的先驱,负责抓取和更新网页内容。下面...

    网络爬虫java实现搜索引擎

    总的来说,这个项目结合了网络爬虫技术、搜索引擎原理以及Java编程,涵盖了从数据获取到处理、存储再到检索的全过程。对于学习和理解整个信息检索系统的运作机制,是一个很好的实践案例。在实际开发中,我们还需要...

    VC++搜索引擎网络爬虫设计与实现

    在网络爬虫的设计与实现的章节中除了详细的阐述技术核心外还结合了多线程网络爬虫的实现代码来说明,易于理解。本网络爬虫是一个能够在后台运行的以配置文件来作为初始URL,以宽度优先算法向下爬行,保存目标URL的...

    简析搜索引擎中网络爬虫的搜索策略

    网络爬虫是搜索引擎技术的关键组成部分,它通过不同的搜索策略实现了高效的信息采集。随着互联网技术的发展和用户需求的变化,网络爬虫也在不断地进化和发展,未来将会出现更多高效、智能的搜索算法和技术,以更好地...

    网络爬虫和搜索引擎的资料

    网络爬虫和搜索引擎是互联网数据获取与检索的关键技术,它们在大数据分析、市场研究、信息监控等领域发挥着重要作用。本文将深入探讨这两个主题,并结合提供的文件名称“自己动手写搜索引擎.pdf”、“自己动手写网络...

    网络爬虫一种搜索引擎

     (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。  (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等...

    网络爬虫技术 爬虫技术

    网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫...

    基于网络爬虫的搜索引擎设计与实现-毕业设计论文

    本毕业设计论文主要关注基于网络爬虫的搜索引擎的设计与实现,旨在理解和掌握网络爬虫的关键技术和搜索引擎的构建过程。 首先,论文从搜索引擎的应用入手,分析了搜索引擎在信息检索中的重要性。搜索引擎通过索引...

    C# 搜索引擎和网络爬虫的实现

    在IT领域,网络爬虫和搜索引擎是两个非常关键的技术,特别是在大数据分析和信息提取中。本文将深入探讨如何使用C#这一编程语言来实现这两项技术。 首先,让我们从网络爬虫开始。网络爬虫,也称为网页抓取器或蜘蛛,...

    Java搜索引擎的实现-网络爬虫.pdf

    Java搜索引擎的实现-网络爬虫.pdf

    基于Python的网络爬虫与反爬虫技术研究.pdf

    在网络爬虫与反爬虫技术的研究中,需要考虑到的伦理和法律因素也十分关键。爬虫程序必须遵守法律法规以及网站的相关规定,不应侵犯网站及用户的权益。研究人员需要在保证自身行为合规的同时,充分利用网络爬虫技术...

    基于python3实现的网络爬虫和搜索引擎

    在IT领域,网络爬虫和搜索引擎是两个非常关键的技术,特别是在大数据分析、信息挖掘和人工智能应用中。Python3因其简洁的语法和丰富的库支持,成为了实现这些技术的首选语言。以下将详细介绍基于Python3实现的网络...

Global site tag (gtag.js) - Google Analytics