`
yangyi
  • 浏览: 115717 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

系统模型及系统故障日志的思考

    博客分类:
  • SE
阅读更多
最近在研究关于系统的基于日志的故障恢复,无意间在网上发现一篇论文中对于系统日志模型的精彩论述,翻译过来并附上我的思路:

一个系统是一个具有明显的边界的实体,它根据一定的输入,自身运行逻辑及系统的内部时钟变化来产生相应的输出。
所谓“明显的边界”是指系统所产生的输出是明确而无二义性的。我们称这个边界为系统的设计规范(specification)。一个系统通过与其所处环境进行交互,从而获取输入并产生输出。一个系统可以被拆解为不同的子系统。这些子系统通常被称为系统模块(system components),每个模块又独立地成为一个系统,作为一个系统,这个模块又会和它的相关环境进行交互(比如,一个更大的系统中的其他的模块组件)来获取输入并产生输出,这些模块还可以继续被分解为更小的子系统。
一个系统可以被建模为一个状态机(state machine),其中的状态包含了系统所持有并处理的数据。这些状态的迁移被分为两大类:由系统内部逻辑所触发且对外部环境透明的迁移和直接与外部环境相接触的迁移。前者的例子如内存数据和寄存器数据的转换,内存中数据结构的重组。第二种迁移的例子包含了各种各样的系统和环境之间的交互,一般来说,如果这个过程能被建模成系统的I/O操作,则应属于这一类别。因此,一个消息内容的形成是一个或多个第一类别状态迁移的结果,但将消息输出到系统的环境则是属于第二类迁移。
第二类别的状态迁移可以捕获交互事件(interaction events),或者简单的事件(events)。这些事件可以由系统外部的观察者(observer)来获取。显然,这里的事件是消息、信号、数据及其内容以及一切系统和其环境交互(如机器人运动手脚,报警器报警,打印机打印等等)的发送和接受的模型。此外事件还可以用来描述系统缺乏交互的时间,比如一个计时器在日志中输出系统的空闲时间等。
当一个大的系统被拆分成多个模块时,每个模块都被赋予了整个系统所处理数据的一部分,正因为模块和模块间的接口衔接和数据感知,一些原来属于第一类别的状态转换,因为系统的拆分在更低的层次上变成了第二类别,成为系统和环境之间的交互。
对于一个特定的系统,他对于输入的形式和获取时间是不可预知的,但是这个系统却应该能够做到根据一个特定的输入以及系统当前的特定状态获取一个特定的输出。因此系统的执行可以被建模为状态转换序列,每个状态的输入是一个不确定性事件。为了记录日志并做到故障恢复,我们还应做到能够在环境中捕获这个不确定性事件输入。
此外,在系统与系统间进行交互式,事件的传递时间也应该是不确定性的。


怎样用日志来预防系统崩溃,在崩溃后如何还原系统,我想关键问题就是怎么做好内存的快照,这样,在断电重启后可以通过日志来还原内存的信息这样第一步就是确认内存中的数据结构,哪些是必不可少的。确定系统恢复的粒度,按照子系统的分割和事件的记录来进行replay,根据子系统的划分,可以找出每个子系统中第二类别的事件进行记录。
以向数据库系统提交作业为例,实际上在整个作业提交的过程中,每个层次都要做到可以在失败的情况下重现,这个功能在完善的数据库系统和集群批处理系统中当然已经很完善。但如果是针对web系统的作业提交,则需要针对Web的作业持久方案,做一个日志恢复处理。需要特别指出的是,对于数据的查询是不需要做备份的。
在具体实现上,我想应该包括:日志记录,故障检测,日志持久三个部分。一份日志就是一个对于系统检查点(checkpoint)的连续记录。日志记录者负责记录日志到日志持久者,故障检测器随时监控系统,发现故障后,从日志持久者中读取日志,进行replay.
分享到:
评论

相关推荐

    电气设备智能检测系统的应用思考.pdf

    电气设备智能检测技术是现代电力系统中不可或缺的一部分,它通过集成先进的传感器技术和数据分析算法,确保设备的稳定运行和故障预防。本文主要探讨了两种关键技术: 1. **红外热成像技术**:利用物体的热辐射特性...

    数据库系统概念 第六版 课后习题 详细全解

    7. 故障恢复:日志系统的作用,检查点技术,以及如何利用日志进行故障恢复。 8. 分布式数据库:分布式数据库的概念,数据分片,复制,以及分布式查询处理。 9. 索引结构:B树、B+树、哈希索引等,以及它们在不同查询...

    财务管理系统详细设计

    后期维护包括系统升级、故障排查、性能优化,确保系统持续稳定运行。 总结,财务管理系统详细设计涉及多个层面,从系统架构到功能模块,再到数据库和接口设计,都需要深入思考和精心规划。采用方正ES2007开发平台,...

    百度林仕鼎:架构设计的一些思考

    - **故障恢复机制**:当某个组件出现故障时,系统应具备自动恢复的能力。例如,通过心跳检测和自动切换等机制。 - **高可用性架构**:通过设计冗余组件和服务,确保即使在某些组件失败的情况下系统也能继续提供...

    「云安全」广电5G在场景应用中的安全思考 - 业务安全.zip

    在广电5G的环境中,日志审计能够帮助管理员及时发现潜在的入侵尝试、系统故障或内部滥用,从而采取必要的预防措施。通过收集和分析不同组件的日志信息,可以构建一个全面的安全监控体系。 3. APT(Advanced ...

    在DevOps和AIOps的思考及实践.zip

    《在DevOps和AIOps的思考及实践》是一份深入探讨现代IT运营模式的资料,其中涵盖了DevOps与AIOps这两个关键概念及其在实际工作中的应用。这份PDF文件很可能是由行业专家或实践经验丰富的从业者编撰,旨在帮助读者...

    devops落地思考以及规范参考

    4. 日志规范:日志记录是故障排查和系统监控的关键。日志应清晰、可读,包含足够的上下文信息,并根据严重程度进行分级。同时,使用日志管理系统如Logstash、ELK Stack(Elasticsearch、Logstash、Kibana)进行收集...

    操作系统 上课 实验报告

    实验可能要求设计一个简单的文件系统模型或者分析现有的文件系统结构。 4. 设备管理:探索中断处理、DMA(直接内存访问)以及I/O缓冲的概念。通过模拟I/O操作,理解设备驱动的工作原理。 四、实验步骤与结果: 这...

    2017全球运维大会 AI浪潮下的高效运维思考与实践

    通过学习历史数据和实时监控信息,AI可以提前预警潜在的问题,实现预测性维护,避免系统故障。 在文本处理方面,自然语言处理(NLP)技术可以应用于日志分析,通过关键词提取、文本分类和关系计算来提高处理效率。...

    萨师煊版《数据库系统概论习题》

    7. 数据库恢复:包括事务的日志、检查点、备份和恢复策略,以应对系统故障或数据损坏。 8. 数据库性能优化:涉及索引的创建和使用、查询优化、存储策略调整等,以提高数据库的查询效率和整体性能。 9. 分布式...

    软件工程答案

    ### 软件工程知识点详解:患者监护系统与状态转换分析 #### 患者监护系统分析 ...无论是患者监护系统还是复印机状态转换分析,这些工具和技术都提供了结构化的思考框架,有助于确保软件系统的正确性和高效性。

    在线图书管理系统

    5. **错误处理与日志记录**:良好的错误处理机制可以及时发现并解决问题,而日志记录则有助于追踪系统运行情况和故障定位。 6. **性能优化**:对于大量数据的查询和处理,需要考虑索引优化、数据库连接池、缓存策略...

    MIT-6.824-2020 分布式系统课程实验内含源码和运行说明书.zip

    这些笔记可以帮助学习者巩固课堂所学,尤其是在处理分布式系统中的并发控制、故障恢复、一致性算法等问题时,提供了实用的思考框架和解决问题的步骤。 在实验过程中,学生将有机会接触到诸如Gossip协议、Paxos或...

    计算机实习日志【12篇】.pdf

    以下是对实习日志中涉及的计算机知识的详细解析: 1. ASP(Active Server Pages)与SQL基础:ASP是一种微软开发的服务器端脚本环境,用于创建动态交互式网页。在实习中,实习生开始学习ASP的基础知识,包括语法、...

    “AN”浪潮下数据库智能运维的实践与思考.pdf

    3. L3(条件自治):经验规则被解耦,业务人员可配置规则,系统能自动处理更多故障事件。 4. L4(高度自治):利用AI模型进行智能感知和诊断,但模型更新仍需人工干预。 5. L5(完全自治):AI模型完全接管,能够...

    架构设计文档实例

    在大企业的核心支撑系统中,可能包括用户管理、业务处理、数据存储、日志记录等模块,每个模块都有其特定的功能和交互方式。 三、接口设计 接口设计决定了组件间的通信方式,是保证系统协同工作的关键。良好的接口...

    数据库原实践环节指导

    2. **恢复机制**:当发生故障时,利用备份数据和日志文件等手段将数据库恢复到某个一致状态的过程。 #### 六、数据库性能优化 1. **查询优化**:通过对查询语句进行优化来提高查询效率,例如合理使用索引、避免全...

    数据库原理复习提纲

    4. 恢复机制处理系统故障,通过数据转储和日志文件实现数据一致性。 思考题解答: 1. 数据独立性包括逻辑独立性和物理独立性,分别指应用与逻辑模式、逻辑模式与物理模式的分离。 2. 数据模型是数据结构、操作和...

    Access精选题库~~几率非常大.pdf

    数据库恢复依赖于事务日志,以便在系统故障后能够恢复到一致状态。 Access提供了多种查询类型,如准则查询、选择查询、操作查询等,其中准则查询是最基础的。按数据的组织形式,数据模型可分为层次、关系和网状三种...

Global site tag (gtag.js) - Google Analytics