专业编程教程与实战项目分享平台

网站首页 > 技术文章 正文

那些难忘的维护之夜(那些难忘的维护之夜英语)

ins518 2024-11-17 11:48:35 技术文章 9 ℃ 0 评论

这是学习笔记的第 2177篇文章

读完需要

5

分钟

速读仅需3分钟

今晚是一个维护之夜,出于蓄势待发状态,对于我来说,每到这个时候就会想起自己这些年熬的那些夜,还是蛮难忘的。

举几个自己印象深刻的维护之夜吧。

1)印象最深刻,压力最大的维护是多套Oracle数据库从10g升级到11g,在前期做了多轮测试,在实际操作还是碰到了不少ORA-00600的错误,不过前期的问题都成功化解,而在最后启动服务的关头,服务抛出了一个奇怪的错误,记得当时情况已经很紧急了,是满世界的打电话求救,唤醒了全球的多个技术专家,有的定位是bug,然后打补丁未果,最后一个操作竟然是重新清空一下回收站,具体细节忘记了,但是这个神一样的操作让我们和原厂都感叹不已。

2)有一次大型维护的时候,登录了一套准生产测试环境,做了下业务变更升级,没想到线上和测试环境的模板配置不一样,结果就想当然在线上环境点击了YES开始自动升级,没想到整个线上环境开始了一系列的不可控操作,于是乎整个业务系统全服回退,这个事情对我们造成了很深刻的教训

3)在国内的一次大型维护,想想都是满满的使命感,差不多有13套环境是在1个多小时内完成,有切换的数据库,有做数据库升级的数据库,有做跨平台迁移的数据库,没想到预估的3个半小时结果在1个小时以内就全部完成了。但是戏剧性的一幕发生了,开服的时候,发现用户充值失败,结果留给我们的时间就很短了。当时记得气氛很紧张,领导拍板,如果10分钟内解决不了,就全服回退。当时看着同事在那里手工敲一些系统命令,带着压力还多次敲错,我赶紧在另一半开始拿出自己准备的脚本开始快速排查,所幸的是在最后的关头,定位到了问题,是一个db link的问题,本质上还是多套环境的关联变更导致,修复之后大家长舒了一口气。

4)最无聊的一次维护,就是在某国内客户现场值班,被抓壮丁安排去值班,主要就是过去充人数,记得自己在椅子上摆了各种姿势睡都不舒服,看着旁边的外国小哥估计还没有倒过来时差,他们在那里看《阿凡达》,后来才知道他们是特派过来的DBA,系统迁移之后,他们负责清理数据。

5)最带感的一次维护,是在一次大型迁移中,出现了性能瓶颈,导致服务回退,后来大家压力都很大,因为是一套全新的技术方案,也是在原来方案无法满足要求的前提下的改进,当然也受到了很多原厂的质疑,在压力中我们开始了地毯式排除测试,记得连续几天都是测试到后半夜,而在最后定位到问题之后,自己心里的疙瘩算是解除了,而在第二次升级的时候,记得客户的大boss也过来了,走进作战室看到一切都很顺畅,在第二天还发了表扬信。

6)这一次可能是很有特点的维护,如何摆脱常规的数据库维护影响,比如数据库需要重启,可能重启的操作需要15秒~1分钟,如何让业务的影响降低到2秒内即可恢复。看起来很普通的需求如何和业务密切配合来改进,对于运维同学来说,这种维护的意义是很特别的。

当然大多数的维护都是默默无闻的,一切正常就是最好的回答。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表