`

爬虫系列之数据质量监控(二):信源系统设计

阅读更多

二、数据监控流程图

异常图.png

三、流程详解

(一)信源系统

信源系统主要是用来管理各种规则,同时接收异常信息、并分析异常情况。

根据分析结果,把相应的信息推送给信源管理、采集人员等相关人员,以便优化采集策略及采集器,从而达到采集闭环(采集--反馈--优化采集--采集)。

1)相关规则阐述:

设计数据校验规则的目:

① 为了保证流入产品的数据质量。
② 为了发现采集的不足之处,以便优化采集策略,完善采集器。

终极目标是提高数据产品的用户体验,增强用户粘性

校验规则说明

只有标题非空的信息,才会进行数据质量校验,数据矫正等后续操作。

规则分类说明

① 非空校验规则;type=1
② 数据质量校验规则;type=2
③ 数据清洗规则;type=3
④ 二次排重规则。type=4

非空规则

具体的判断规则,根据索引字段管理中配置为准。包括但不限于下面几方面:

① 标题/评论是否非空;
② [发布时间](http://www.blog2019.net/tag/%E5%8F%91%E5%B8%83%E6%97%B6%E9%97%B4?tagId=31)是否非空;
③ 内容是否非空;
④ 采集时间是否非空;
⑤ 插入时间是否非空;
⑥ 数据类型是否非空;
⑦ 如果为空,就无法判断该条数据使用那一类型的校验规则;
⑧ Kafka根据该字段值,来判断数据存入那个ES索引中;
⑨ 采集人ID标识是否非空。
⑩ 设计该字段的主要用了记录数据来源,以便快速定位到人。
⑪ 新闻或网站类型的数据中site_id和site_name不可为空;

注释事项:

只有标题/评论内容不为空的信息,才可以流入后续环境。

数据质量规则

1)标题:

① 标题是否有乱码;
② 是否出现日期信息。如:
③ 标题是否以”XXXXXX_XXX网站/门户网站”等结束;
④ 标题是否包含JS、CSS样式等。
⑤ 标题是否包含HTML转义字符等;如: 
⑥ 包含特殊格式。比如:	

等等

2)正文/评论:

① 是否包含乱码;
② 是否包含JS、CSS;
③ 是否包含无用内容。如:打开APP、查看更多、精彩图片、展开全文、			扫一扫、扫码关注等等;
④ 内容和标题描述是否一致;
⑤ 内容是否包含转义字符等;如下图所示:
⑥ 包含特殊重复格式。比如:多个”	

”、换行等同时出现 ⑦ 是否包含版权信息。如:独家稿文,禁止转载等字样

3)发布时间:

① 是否大于采集时间;
② 长度否是19位;
③ 格式是否为:yyyy-MM-dd HH:mm:ss

数据清洗规则

1)根据域名

根据域名过滤掉整个网站的数据。这种情况主要为应对一些域名异常的情况。比如一些网站实际跳转到一些异常网站等

2)根据关键词进行特定清洗

① 包含某个关键词整行删除。
② 删除某个特定关键词;

二次排重规则

1)排重依据字段。

可以单个字段,也可以是多字段联合排重。比如微信使用“公众号名称”+“标题”的二次排重。

2)排重规则具有唯一性

一种类型的数据只能设置一种排重规则;

2)系统功能设计

规则库管理

① 非空规则的添加、编辑、删除、查询等;type=1
② 数据质量校验规则的添加、编辑、删除、查询等;type=2
③ 数据清洗规则的添加、编辑、删除、查询等;type=3
④ 默认规则参考《相关规则阐述》中《非空规则》、《数据质量规则》和《数据清洗规则》;
⑤ 规则下需要可以添加相应的判断关键词。

Kafka统一推送接口管理

① 能够实现现有接口的添加、编辑、删除、查询等管理。同时把信息同步到Redis库中。格式如③中图所示;
② 接口服务记录中须包括:[部署](http://www.blog2019.net/tag/%E9%83%A8%E7%BD%B2?tagId=13)的服务器IP、接口端口号等信息;
③ 由于是分布式部署,每个接口会有多个地址URL,如下图所示。
④ 接口在Redis中的存储方式:key=方法名,value=拼接字符串

数据类型管理

数据类型管理

① 能够实现对数据类型的添加、编辑、删除、查询等基本功能;
② 该功能需可以添加排重依据字段,字段可以是单个,或者是组合;
③ 该功能需可选择数据推送接口地址URL;通过接口方法名进行关联;
④ 数据类型一般可以分为:新闻(或网站)、论坛、博客、微博、纸媒、外媒、客户端、微信、视频、广播、电视台、评论等;
⑤ 数据类型需要通过ES索引类型进行关联;
⑥ 数据类型需要和人员相关联。

 ...........................

如需完整Word文档,请关注“十点数据公众号获取。

相关阅读:

爬虫系列之数据质量监控(一)

分享到:
评论

相关推荐

    基于网络爬虫技术的大数据采集系统设计.pdf

    总结来说,基于网络爬虫技术的大数据采集系统设计,将硬件的高精度数据采集与软件的智能数据处理相结合,能有效解决网络冗余数据干扰问题,提高数据采集的速度和质量。这种系统设计思路具有很强的实用价值和广阔的...

    分布式爬虫与Prometheus + Grafana可视化监控系统设计

    PPT里面分享了分布式爬虫的设计,实现了Github 爬虫,使用Redis 作为消息队列的,以及数据可视化,监控的实践。

    Python-Scrapy爬虫的数据验证状态监控消息提醒扩展

    在实际的爬虫项目中,数据验证、状态监控和消息提醒是至关重要的环节,确保了爬取数据的质量和系统的稳定性。"Python-Scrapy爬虫的数据验证状态监控消息提醒扩展"这一主题,主要涉及以下几个核心知识点: 1. 数据...

    python爬虫获取天气数据与儿童肺部疾病门诊就诊率相关性分析.pdf

    在本篇研究报告中,研究者们通过Python爬虫技术获取了空气质量数据,并对中国西安市一年间的空气质量指数(AQI)与儿童肺部疾病门诊就诊率进行了相关性分析。以下是本篇研究的主要知识点: 1. Python爬虫技术:...

    教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx

    教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络爬虫获取新冠疫情的实时数据.docx教案:大数据采集之利用网络...

    海量网页爬虫系统设计报告(20210809122911).pdf

    在处理这份关于海量网页爬虫系统设计报告的内容时,我们可以从中提取出多个关键知识点,包括爬虫的定义、设计原理、实现技术和相关编程语言的应用等方面。 1. 爬虫定义与作用: 爬虫(Web Crawler)是一种按照既定...

    基于python的聚焦网络爬虫数据采集系统设计与实现.pdf

    为了解决这一问题,网络爬虫技术应运而生,成为搜索引擎的基础构件之一,专门从互联网中筛选出有用的信息,帮助用户更精准地获取所需数据。 网络爬虫直接面向互联网底层,相当于网上“小蜘蛛”,负责数据的采集和...

    解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料

    Python网络爬虫是一种用于自动化网页数据抓取的技术,它能够高效地从互联网上获取大量信息。本套教学资料深入解析了Python爬虫的核心...同时,对于Scrapy框架和分布式爬虫的理解,也将提升你的项目管理和系统设计能力。

    Python爬虫实战:数据采集、处理与分析

    Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据...

    A毕业设计:爬虫和数据分析

    爬虫和数据分析结合在一起可以帮助我们从互联网上获取数据,并对这些数据进行挖掘、清洗和分析,从而发现有价值的信息或见解。以下是使用爬虫和数据分析的典型流程: 1. **爬虫数据采集**: - 使用爬虫技术(如...

    Python爬虫实战:数据采集、处理与分析.zip

    python爬虫Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫...

    爬虫游戏-数据抓取分析系统.zip

    爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统...

    海量网页爬虫系统设计报告.pdf

    以上详细说明了海量网页爬虫系统设计的核心知识点,包括爬虫系统的概念、设计关键组成部分、使用的关键技术、支持的框架及工具、编程语言和开发环境的选择、编程实践和爬虫类的设计。通过这些知识点,可以构建一个...

    计算机毕业设计:python爬虫数据可视化分析系统(源码+详细说明)),保证可靠运行,附赠计算机答辩PPT模板

    《计算机毕业设计:Python爬虫数据可视化分析系统》是一项综合性强、实用性高的学习资源,专为本科课程设计、毕业设计以及Python学习者精心打造。该系统结合了Python爬虫技术的强大功能与数据可视化分析的先进理念,...

    基于python的聚焦网络爬虫数据采集系统设计与实现

    :人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,数量庞大的数据随之产生,作为辅助人们检索 信息工具的搜索引擎也存在着一定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,...

    爬虫系统设计思路

    ### 知识点一:聚焦爬虫系统设计概述 聚焦爬虫系统是一种专门针对特定领域或主题进行数据抓取的网络爬虫系统。与通用爬虫不同,聚焦爬虫更加注重于目标站点的选择和信息的有效提取,从而提高数据质量和抓取效率。 ...

    网站监控系统的爬虫和数据库

    总的来说,网站监控系统的爬虫和数据库是其核心组成部分,larbin负责数据采集,MySQL负责数据存储和分析。理解这两者的运作原理和配合方式,对于构建和优化网站监控系统至关重要。通过深入学习和实践,我们可以利用...

    基于python与CSS的分布式爬虫系统设计与实现

    综上所述,基于Python与CSS的分布式爬虫系统设计与实现,不仅涵盖了Python编程基础、CSS选择器的应用,还涉及到分布式系统的设计原则和实践。这样的系统能够高效、稳定地抓取大量网络数据,为数据分析、市场研究等...

Global site tag (gtag.js) - Google Analytics