面试官：比如有10万个网站，有什么方法快速的采集到的数据吗？ -

图片1.png 昨天有一个网友说，他最近面试了几家公司，有一个问题被问到了好几次，每次都回答的不是太好。

面试官：比如有10万个网站需要采集，你有什么方法快速的获取到数据？

想回答好这个问题，其实需要你有足够的知识面，有足够的技术储备。

最近，我们也在招聘，每周都会面试十几个人，感觉合适的也就一两个，大多数和这位网友的情况差不多，都缺乏整体思维，那怕那些有三四年工作经验的老司机。他们解决具体问题的能力很强，却很少能由点及面，站在一个新的高度，全面思考问题。

10万个网站的采集覆盖度，已经比大多数的专业舆情监控公司的数据采集范围都广了。要达到面试官说的采集需求，就需要我们从网站的收集，直到数据存储的各个方面进行综合考虑，给出一个合适的方案，以达到节省成本，提高工作效率的目的。

下面我们就从网站的收集，直到数据存储的各方面，做个简单的介绍。

一、10万个网站从哪里来？

一般来说，采集的网站，都是根据公司业务的发展，逐渐积累起来的。

我们现在假设，这是一个初创公司的需求。公司刚刚成立，这么多网站，基本上可以说是冷启动。那么我们如何收集到这10万个网站呢？可以有以下几种方式：

1)历史业务的积累

不管是冷启动，还是什么，既然有采集需求，一定是有项目或产品有这方面的需求，其相关的人员前期一定调研过一些数据来源，收集了一些比较重要的网站。这些都可以作为我们收集网站和采集的原始种子。

2)关联网站

在一些网站的底部，一般都有相关网站的链接。尤其是政府类型的网站，通常会有下级相关部门的官网。图片2.png

3)网站导航

有些网站可能为了某种目的(比如引流等)，收集一些网站，并对其进行归类进行展示，以方便人们查找。这些网站可以快速的为我们提供第一批种子网站。然后，我们再通过网站关联等其他方式获取更多的网站。图片3.png

4)搜索引擎

也可以准备一些与公司业务相关的关键词，去百度、搜狗等搜索引擎中搜索，通过对搜索结果进行处理，提取相应的网站，作为我们的种子网站。图片4.png

5)第三方平台

比如一些第三方的SaaS平台，都会有7~15天的免费试用。所以，我们就可以利用这段时间，把与我们业务相关的数据采集下来，然后提取出其中的网站，作为我们初始采集种子。

虽然，这种方式是最有效，最快的网站收集方式。但是在试用期内，获取10万个网站的可能也极小，所以尚需要结合上述的关联网站等其他方式，以便快速获取所需网站。

通过以上五种方式，相信我们可以很快的收集到，我们需要的10万个网站。但是，这么多网站，我们该如何管理？如何知道其正常与否呢？

二、10万个网站如何管理？

当我们收集到10万个网站以后，首先面对的就是如何管理、如何配置采集规则、如何监控网站正常与否等。

1)如何管理

10万个网站，如果没有专门的系统来管理，那将是一场灾难。

同时，可能由于业务的需要，比如智能推荐等，需要我们对网站进行一些预处理(比如打标签)。此时，一个网站管理系统将是必须的。图片5.png

2)如何配置采集规则

前期我们收集的10万个网站只是首页，如果只把首页作为采集任务，那么就只能采集到首页很少的信息，漏采率很大。

如果要根据首页URL进行全站采集，则对服务器资源消耗又比较大，成本过高。所以，我们需要配置我们关心的栏目，并对其进行采集。图片6.png

但是，10万个网站，如何快速、高效的配置栏目呢？目前，我们以自动解析HTML源码的方式，进行栏目的半自动化配置。图片7.png

当然，我们也试验过机器学习的方式来处理，不过效果还不是太理想。

由于需要采集的网站量达到10万级别，所以一定不要使用xpath等精确定位的方式进行采集。否则，等你把这10万网站配置好，黄花菜都凉了。

同时，数据采集一定要使用通用爬虫，使用正则表达式的方式来匹配列表数据。在采集正文时，通过使用算法来解析时间、正文等属性；

3)如何监控

由于有10万网站，这些网站中每天都会有网站改版，或者栏目改版，或新增/下架栏目等。所以，需要根据采集的数据情况，简单的分析一下网站的情况。

比如，一个网站几天都没有新数据，一定是出现了问题。要么网站改版，导致信息正则失效常，要么就是网站本身出现问题。图片8.png

为了提高采集效率，可以使用一个单独的服务，每隔一段时间，检测一次网站和栏目的情况。一是检测网站、栏目是否能正常访问；二要检测配置的栏目信息正则表达式是否正常。以便运维人员对其进行维护。

三、任务缓存

10万个网站，配置完栏目以后，采集的入口URL应该会达到百万级别。采集器如何高效的获取这些入口URL进行采集呢？

如果把这些URL放到数据库中，不管是MySQL，还是Oracle，采集器获取采集任务这一操作，都会浪费很多时间，大大降低采集效率。

如何解决这个问题呢？内存数据库便是首选，如Redis、 Mongo DB 等。一般采集用Redis来做缓存。所以，可以在配置栏目的同时，把栏目信息同步到Redis中，作为采集任务缓存队列。图片9.png

四、网站如何采集？

就像是你想达到年薪百万，最大概率是要去华为、阿里、腾讯这种一线大厂，而且还需要到一定的级别才行。这条路注定不易。

同样，如果需要采集百万级别的列表URL，常规的方法也一定是无法实现。

必须使用分布式+多进程+多线程的方式。同时，还需要结合内存数据库Redis等做缓存，已实现高效获取任务，以及对采集信息进行排重；图片10.png

同时，信息的解析，如发布时间、正文等，也必须使用算法来处理。比如现在比较火的GNE，

有些属性，可以在列表采集时获取的，就尽量不要放到和正文一起进行解析。比如：标题。一般情况下，从列表中获取到的，标题的准确度，要远大于算法从信息html源码中解析的。

同时，如果有一些特殊网站、或者一些特殊需求，我们再采用定制开发的方式进行处理即可。

五、统一数据存储接口

为了保持采集的及时性，10万个网站的采集，可能需要十几二十台服务器。同时，每台服务器上又部署N个采集器，再加上一些定制开发的脚本，整体采集器的数量将会达到上百个。

如果每个采集器/定制脚本，都自行开发一套自己的数据保存接口，则开发、调试就会浪费不少时间。而且后续的运维，也将是一件非糟心的事情。尤其是业务有所变化，需要调整时。所以，统一数据存储接口还是很有必要的。

由于数据存储接口统一，当我们需要相对数据做一些特殊处理时，比如：清洗、矫正等，就不用再去修改每个采集存储部分，只需要修改一下接口，重新部署即可。

快速、方便、快捷。

六、数据及采集监控

10万个网站的采集覆盖度，每天的数据量绝对在200万以上。由于数据解析的算法无论多精确，总是不能达到100%（能达到90%就非常不错了）。所以，数据解析一定会存在异常情况。比如：发布时间大于当前时间、正文中包含相关新闻信息等等。

但是，由于我们统一了数据存储接口，此时就可以在接口处，进行统一的数据质量校验。以便根据异常情况，来优化采集器及定制脚本。

同时，还可以统计每个网站或栏目的数据采集情况。以便能够及时地判断，当前采集的网站/栏目信源是否正常，以便保证始终有10万个有效的采集网站。

七、数据存储

由于每天采集的数据量较大，普通的数据库(如：mysql、Oracle等)已经无法胜任。即使像Mongo DB这样的NoSql数据库，也已经不再适用。此时，ES、Solr等分布式索引是目前最好的选择。

至于是否上Hadoop、HBase等大数据平台，那就看具体情况了。在预算不多的情况下，可以先搭建分布式索引集群，大数据平台可以后续考虑。

为了保证查询的响应速度，分布式索引中尽量不要保存正文的信息。像标题、发布时间、URL等可以保存，这样在显示列表数据时可以减少二次查询。

在没有上大数据平台期间，可以把正文以固定的数据标准，保存到txt等文件系统中。后续上大数据平台后，再转存到HBASE中即可。

八、自动化运维

由于服务器、采集器，以及定制脚本较多，单纯的靠人工进行部署、启动、更新、运行情况监控等，已经显得非常的繁琐，且容易出现人为失误。

所以，必须有一套自动化运维系统，能够实现对采集器/脚本进行部署、启动、关闭、运行等，以便能够在出现变动时快速的响应。

“比如有10万个网站需要采集，你有什么方法快速的获取到数据？”，如果你能回答出这些，拿到一个不错的offer应该没什么悬念。

最后，愿正在找工作的各位朋友，都能收获满意的offer，找到一个不错的平台。

#面试 #数据采集

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论