`
85977328
  • 浏览: 1898630 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

日志架构(二)调研

 
阅读更多
beacons+JavaScript(google analytics)

    优势:只需要在页面代码中操作,不需要配置服务器;数据的获取有较高的可控性,可以只在需要统计的页面植入代码;能够获取点击、响应等数据;不需要担心缓存等的影响,数据的准确度较高;可用第三方cookie实现多网站跟踪比较。
    缺陷:当浏览器禁止接收图片或者禁用JS时,都可能导致数据获取的失败;只在应用服务层操作,无法获取后台的数据;对图片、文件等请求信息的获取难度相对较大;过多地JS可能导致页面性能的下降,虽然这方面的影响一般可以忽略。

Access.log

    优势:简单方便,不需要修改网页代码,可以自定义日志格式;较多的现成的日志分析工具的支持(AWStats、Webalizer等);获取网络爬虫数据的唯一途径;可以收集底层数据供反复的分析。
    缺陷:数据的质量较低,网站日志包含所有日志数据,包括CSS、图片、脚本文件的请求信息,所以过滤和预处理来提升数据质量必不可少;页面缓存导致浏览无日志记录,这个是比较致命的。

分布式日志收集系统Facebook-Scribe
https://github.com/facebook/scribe
 Scribe的主要功能
1.支持多种存储类型:7种并且可扩展
2.日志自动切分功能:按文件大小和时间切分
 灵活的客户端
(1)支持多种常用语言(Thrift提供支持);
(2)可与应用系统集成;可以作实现独立客户端
支持日志分类功能(Facebook有上百种日志分类)
 其他功能
(1)连接池
(2)灵活的日志缓存大小
(3)多线程功能(消息队列)
(4)scribe服务器之间可以转发日志
 以上功能都是可以通过配置文件来灵活配置
 Scribe使用方案
(1)和产生日志文件的应用系统集成,scribe能够和各种应用系统很好的集成是因为它提供几乎所有的开发语言的开发包
(2)应用系统在本地产生日志文件,使用一个独立运行的客户端程序同样,独立的客户端也可以采用各种语言开发。
 Scribe问题
1、单点故障问题
有三个地方存在单点故障:
(1)中心服务器
(2)本地服务器
(3)收集日志的客户端程序
2、日志丢失问题
当日志文件发生切分的时候可能导致日志丢失
3、历史日志收集问题
4、scribe服务器挂了没有及时通知

Scribe的系统架构

如上图所示:Scribe从各种数据源上收集数据,放到一个共享队列上,然后push到后端的中央存储系统上。当中央存储系统出现故障时,scribe可以暂时把日志写到本地文件中,待中央存储系统恢复性能后,scribe把本地日志续传到中央存储系统上。

Scribe的技术架构

如上图所示:Scribe服务器底层数据通信框架是Thrift,Thrift也是Facebook开源的,并得到了广泛的使用。也用到了C++的准标准库boost,主要使用共享指针和文件相关的功能。Thrift也用到了libevent开发库和socket编程技术。

Scribe的部署结构


分布式日志收集系统Flume
类似scribe,思路差不多
https://github.com/cloudera/flume

    正如前面提到的,Flume采用了分层架构:分别为agent,collector和storage。其中,agent和collector均由两部分组成:source和sink,source是数据来源,sink是数据去向。
Flume使用两个组件:Master和Node,Node根据在Master shell或web中动态配置,决定其是作为Agent还是Collector。


系统定制记录
有些业务日志,无法通过统一的方式设计,只能由各系统定制生产数据。
采用严格的参数规范
由filter,log触发保存日志的事件,数据仍由业务系统自行生产;
优势:灵活、丰富,可以满足各种业务日志。
缺陷:无法集中管理,加大开发人员工作量。

日志收集框架比较

  • 大小: 30.2 KB
  • 大小: 14.6 KB
  • 大小: 25 KB
  • 大小: 25.2 KB
  • 大小: 23.4 KB
  • 大小: 23 KB
  • 大小: 10.5 KB
  • 大小: 98.2 KB
  • 大小: 98.2 KB
分享到:
评论

相关推荐

    分布式日志处理系统调研报告

    ### 分布式日志处理系统调研报告:ELK详解 #### 一、引言 随着互联网技术的发展,大型系统的规模不断膨胀,系统架构也日益复杂。为了更好地管理和维护这些复杂的系统,日志作为记录系统运行状态的重要手段,其重要...

    日志分析系统调研分析ELKEFK.docx

    ### 日志分析系统调研分析——ELK与EFK #### 一、背景介绍与日志系统概述 在当今数字化时代,随着企业业务的不断增长,各类应用系统在日常运营过程中产生了大量的日志数据。这些数据通常包含了丰富的业务信息和...

    容灾备份技术架构浅析

    - 需要对应用程序进行较大的修改,增加软件商的二次开发负担。 - 保证交易处理结果一致性较为困难,因为生产中心和容灾备份中心的业务处理过程为异步进行。 2. **数据库复制容灾架构** - **建立容灾备份环境的...

    BMC芯片调研及固件厂家调研

    **BMC芯片调研及固件厂家调研** BMC(Baseboard Management Controller)是服务器管理的关键组件,它负责监控和管理服务器的硬件状态,确保系统的稳定运行。BMC通常由两大部分组成:BMC芯片和BMC固件。BMC芯片作为...

    从无到有搭建中小型互联网公司后台服务架构与运维架构(龙果学院)

    - **日志管理**:使用ELK(Elasticsearch、Logstash、Kibana)栈收集和分析日志数据。 - **监控报警**:借助Prometheus和Grafana实现系统性能监控及故障报警。 #### 五、运维策略 - **自动化部署**:通过Jenkins、...

    数据仓库调研.docx

    #### 二、数据仓库的特点 1. **面向主题**:数据仓库中的数据是围绕特定的主题域进行组织的。例如,销售数据、客户信息等都是各自独立的主题区域。 2. **集成**:通过对多个数据源的数据进行整合和标准化,消除源...

    微服务技术调研与实践

    API Gateway在微服务架构中扮演着关键角色,它作为一个集中式的入口点,处理客户端的所有请求,负责请求的转发、聚合、身份验证、权限控制、日志管理、健康检查以及缓存处理等。通过API Gateway,可以简化客户端的...

    开源分布式服务框架Dubbo调研报告

    本调研报告将深入探讨Dubbo的核心特性、设计理念以及实际应用。 1. **概述** 1.1 **Dubbo是什么?** Dubbo是一个基于Java的RPC(Remote Procedure Call)框架,它实现了服务的发布、订阅、调用和治理。Dubbo的...

    构建混合云双活架构提高业务连续性和弹性.pdf

    在实施混合云双活架构时,企业应进行充分的前期调研评估,以明确业务目标和愿景,分析业务影响和风险识别,设计平台建设方案,并制定数据同步与复制策略。这要求企业对人员治理、业务平台运维安全等进行综合考量,并...

    PLM需求调研提纲(简明)

    在进行PLM需求调研时,需要深入理解企业的业务模式、组织架构、信息化现状以及未来发展规划,以确保PLM系统的实施能够与企业战略相契合,提升效率并降低成本。 首先,企业定位是调研的基础。了解企业是以设计研发为...

    [林奕舟]基于ELK的微服务日志管理系统的设计与实现1

    1. 对云计算领域的基础概念、技术特点及日志管理系统的需求进行调研,分析MSCP(容器化私有云平台)上的日志系统特点。 2. 设计并实现基于Elasticsearch集群的日志索引和存储方案,以处理MSCP平台上的海量数据。 3. ...

    OpenStack Compute调研及安装

    完全虚拟化的目标是让 guest OS 完全不感知到虚拟环境的存在,它通过修改 guest OS 内核以适应虚拟环境,或者使用二进制转换技术(如Intel的VT-x或AMD的V技术)来实现。KVM(Kernel-based Virtual Machine)就是一种...

    基于大数据技术的高职院校软件技术专业目标岗位调研模型的研究与探讨.pdf

    由于传统的关系型数据库在处理非结构化数据方面存在局限性,基于Hadoop技术的NoSQL数据库和MPP架构的新型数据库集群因此得到了广泛的应用。这些技术不仅能有效存储大数据,还能提供高性能、高扩展性的解决方案。比如...

    flume 调研报告及安装部署

    【FLUME 调研】 FLUME 是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它的主要目标是提供一个高效、可扩展的数据收集框架,广泛应用于大数据环境中,尤其是日志管理和分析。在调研FLUME时,...

    大数据产业调研及分析报告

    本报告通过全面的调研和分析,阐述了大数据的概念、产业链、战略意义以及国内外的应用现状和未来发展趋势。 1. 大数据概念溯源与战略意义 大数据的概念最早可追溯至2008年,它指的是一种无法用传统数据处理软件在...

    第3周-常佳辉-工作日志1

    通过日志,我们可以看到他的工作主要集中在两个方面:一是参与选题方向和内容的会议讨论,二是对Flask框架进行调研学习。 【标签】:虽然没有明确的标签,但可以推断出与“Web开发”、“Python编程”、“Flask框架...

    数据库设计文档(问卷调研系统)

    通过对上述内容的详细介绍,我们可以看到,一个好的问卷调研系统不仅需要精心设计的数据库架构来支撑其功能需求,还需要考虑数据的安全性、可靠性和易维护性等方面。在实际开发过程中,开发团队需要综合运用上述设计...

    软件项目需求调研报告模板.docx

    #### 二、项目描述 ##### 项目背景 本项目基于[XXXX]公司当前面临的业务挑战而启动。随着公司业务的快速发展,原有的信息系统已无法满足日益增长的需求。因此,[XXXX]公司决定启动[XXXX]软件项目,旨在通过引入先进...

Global site tag (gtag.js) - Google Analytics