beacons+JavaScript(google analytics)
优势:只需要在页面代码中操作,不需要配置服务器;数据的获取有较高的可控性,可以只在需要统计的页面植入代码;能够获取点击、响应等数据;不需要担心缓存等的影响,数据的准确度较高;可用第三方cookie实现多网站跟踪比较。
缺陷:当浏览器禁止接收图片或者禁用JS时,都可能导致数据获取的失败;只在应用服务层操作,无法获取后台的数据;对图片、文件等请求信息的获取难度相对较大;过多地JS可能导致页面性能的下降,虽然这方面的影响一般可以忽略。
Access.log
优势:简单方便,不需要修改网页代码,可以自定义日志格式;较多的现成的日志分析工具的支持(AWStats、Webalizer等);获取网络爬虫数据的唯一途径;可以收集底层数据供反复的分析。
缺陷:数据的质量较低,网站日志包含所有日志数据,包括CSS、图片、脚本文件的请求信息,所以过滤和预处理来提升数据质量必不可少;页面缓存导致浏览无日志记录,这个是比较致命的。
分布式日志收集系统Facebook-Scribe
https://github.com/facebook/scribe
Scribe的主要功能
1.支持多种存储类型:7种并且可扩展
2.日志自动切分功能:按文件大小和时间切分
灵活的客户端
(1)支持多种常用语言(Thrift提供支持);
(2)可与应用系统集成;可以作实现独立客户端
支持日志分类功能(Facebook有上百种日志分类)
其他功能
(1)连接池
(2)灵活的日志缓存大小
(3)多线程功能(消息队列)
(4)scribe服务器之间可以转发日志
以上功能都是可以通过配置文件来灵活配置
Scribe使用方案
(1)和产生日志文件的应用系统集成,scribe能够和各种应用系统很好的集成是因为它提供几乎所有的开发语言的开发包
(2)应用系统在本地产生日志文件,使用一个独立运行的客户端程序同样,独立的客户端也可以采用各种语言开发。
Scribe问题
1、单点故障问题
有三个地方存在单点故障:
(1)中心服务器
(2)本地服务器
(3)收集日志的客户端程序
2、日志丢失问题
当日志文件发生切分的时候可能导致日志丢失
3、历史日志收集问题
4、scribe服务器挂了没有及时通知
Scribe的系统架构
如上图所示:Scribe从各种数据源上收集数据,放到一个共享队列上,然后push到后端的中央存储系统上。当中央存储系统出现故障时,scribe可以暂时把日志写到本地文件中,待中央存储系统恢复性能后,scribe把本地日志续传到中央存储系统上。
Scribe的技术架构
如上图所示:Scribe服务器底层数据通信框架是Thrift,Thrift也是Facebook开源的,并得到了广泛的使用。也用到了C++的准标准库boost,主要使用共享指针和文件相关的功能。Thrift也用到了libevent开发库和socket编程技术。
Scribe的部署结构
分布式日志收集系统Flume
类似scribe,思路差不多
https://github.com/cloudera/flume
正如前面提到的,Flume采用了分层架构:分别为agent,collector和storage。其中,agent和collector均由两部分组成:source和sink,source是数据来源,sink是数据去向。
Flume使用两个组件:Master和Node,Node根据在Master shell或web中动态配置,决定其是作为Agent还是Collector。
系统定制记录
有些业务日志,无法通过统一的方式设计,只能由各系统定制生产数据。
采用严格的参数规范
由filter,log触发保存日志的事件,数据仍由业务系统自行生产;
优势:灵活、丰富,可以满足各种业务日志。
缺陷:无法集中管理,加大开发人员工作量。
日志收集框架比较
- 大小: 30.2 KB
- 大小: 14.6 KB
- 大小: 25 KB
- 大小: 25.2 KB
- 大小: 23.4 KB
- 大小: 23 KB
- 大小: 10.5 KB
- 大小: 98.2 KB
- 大小: 98.2 KB
分享到:
相关推荐
### 分布式日志处理系统调研报告:ELK详解 #### 一、引言 随着互联网技术的发展,大型系统的规模不断膨胀,系统架构也日益复杂。为了更好地管理和维护这些复杂的系统,日志作为记录系统运行状态的重要手段,其重要...
### 日志分析系统调研分析——ELK与EFK #### 一、背景介绍与日志系统概述 在当今数字化时代,随着企业业务的不断增长,各类应用系统在日常运营过程中产生了大量的日志数据。这些数据通常包含了丰富的业务信息和...
**BMC芯片调研及固件厂家调研** BMC(Baseboard Management Controller)是服务器管理的关键组件,它负责监控和管理服务器的硬件状态,确保系统的稳定运行。BMC通常由两大部分组成:BMC芯片和BMC固件。BMC芯片作为...
- **日志管理**:使用ELK(Elasticsearch、Logstash、Kibana)栈收集和分析日志数据。 - **监控报警**:借助Prometheus和Grafana实现系统性能监控及故障报警。 #### 五、运维策略 - **自动化部署**:通过Jenkins、...
1. 对云计算领域的基础概念、技术特点及日志管理系统的需求进行调研,分析MSCP(容器化私有云平台)上的日志系统特点。 2. 设计并实现基于Elasticsearch集群的日志索引和存储方案,以处理MSCP平台上的海量数据。 3. ...
微服务架构熔断机制及服务降级方案 微服务架构是当前流行的软件架构模式,它将大型系统分拆成多个可插拔的小系统,每个小系统可以独立开发、测试、部署和维护,从而提高系统的灵活性和可扩展性。在微服务架构中,...
#### 二、数据仓库的特点 1. **面向主题**:数据仓库中的数据是围绕特定的主题域进行组织的。例如,销售数据、客户信息等都是各自独立的主题区域。 2. **集成**:通过对多个数据源的数据进行整合和标准化,消除源...
API Gateway在微服务架构中扮演着关键角色,它作为一个集中式的入口点,处理客户端的所有请求,负责请求的转发、聚合、身份验证、权限控制、日志管理、健康检查以及缓存处理等。通过API Gateway,可以简化客户端的...
本调研报告将深入探讨Dubbo的核心特性、设计理念以及实际应用。 1. **概述** 1.1 **Dubbo是什么?** Dubbo是一个基于Java的RPC(Remote Procedure Call)框架,它实现了服务的发布、订阅、调用和治理。Dubbo的...
在实施混合云双活架构时,企业应进行充分的前期调研评估,以明确业务目标和愿景,分析业务影响和风险识别,设计平台建设方案,并制定数据同步与复制策略。这要求企业对人员治理、业务平台运维安全等进行综合考量,并...
在进行PLM需求调研时,需要深入理解企业的业务模式、组织架构、信息化现状以及未来发展规划,以确保PLM系统的实施能够与企业战略相契合,提升效率并降低成本。 首先,企业定位是调研的基础。了解企业是以设计研发为...
完全虚拟化的目标是让 guest OS 完全不感知到虚拟环境的存在,它通过修改 guest OS 内核以适应虚拟环境,或者使用二进制转换技术(如Intel的VT-x或AMD的V技术)来实现。KVM(Kernel-based Virtual Machine)就是一种...
由于传统的关系型数据库在处理非结构化数据方面存在局限性,基于Hadoop技术的NoSQL数据库和MPP架构的新型数据库集群因此得到了广泛的应用。这些技术不仅能有效存储大数据,还能提供高性能、高扩展性的解决方案。比如...
【FLUME 调研】 FLUME 是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它的主要目标是提供一个高效、可扩展的数据收集框架,广泛应用于大数据环境中,尤其是日志管理和分析。在调研FLUME时,...
本报告通过全面的调研和分析,阐述了大数据的概念、产业链、战略意义以及国内外的应用现状和未来发展趋势。 1. 大数据概念溯源与战略意义 大数据的概念最早可追溯至2008年,它指的是一种无法用传统数据处理软件在...
通过日志,我们可以看到他的工作主要集中在两个方面:一是参与选题方向和内容的会议讨论,二是对Flask框架进行调研学习。 【标签】:虽然没有明确的标签,但可以推断出与“Web开发”、“Python编程”、“Flask框架...
通过对上述内容的详细介绍,我们可以看到,一个好的问卷调研系统不仅需要精心设计的数据库架构来支撑其功能需求,还需要考虑数据的安全性、可靠性和易维护性等方面。在实际开发过程中,开发团队需要综合运用上述设计...
#### 二、项目描述 ##### 项目背景 本项目基于[XXXX]公司当前面临的业务挑战而启动。随着公司业务的快速发展,原有的信息系统已无法满足日益增长的需求。因此,[XXXX]公司决定启动[XXXX]软件项目,旨在通过引入先进...
【HBase技术调研】 HBase,全称为Hadoop Database,是一种构建在Hadoop分布式文件系统(HDFS)上的开源数据库,特别设计用于处理大规模、实时读写的大数据。HBase属于NoSQL数据库家族,它不支持传统的SQL查询,但...