实现网络爬虫与搜索引擎技术都需要配备什么样的资源？

0 0

实现网络爬虫与搜索引擎技术都需要配备什么样的资源？0

公司准备做一个关于搜索引擎方面的东西，但是本人对这块不是熟悉，都需要配备什么样的资源，比如人才，软件(开源或商业的，开源优先)，硬件，网络等，请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来，然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理，方便用户使用。我们只是要求搜索某一行业的数据，而不是像百度这样可以搜索全网的数据。

搜索引擎网络爬虫 lucence 开源爬虫

2014年7月20日 19:54

gq2010
3
0 0 13

采纳的答案

我以前做过信息检索，写过爬虫解析过网页，可能可以给您一些提示。
首先流程正如@y_x 所说，各个阶段需要用到的工具就如@mayufenga1 所说。
1、网络爬虫。这个有许多开源工具，spiderman，crawler，solar，nutch也可以用，轻量的话wget也可以用。基本上属于配置一些参数就可以开始抓取了。
2、索引工具。这个也有很多开源工具，著名的Lucene是其中之一。
3、索引完之后就有完整的数据库了，这个时候可以使用自己的工具对业务数据进行解析和进一步操作，爬虫的功能就完成了。
4、需要注意的是定期更新数据，因为网页链接是会经常更新的。
5、为了能更好地工作，linux系统是必须的。

2014年7月21日 16:00

hjhjw1991
30
0 0 4