网站推广花费多少钱,奉贤免费网站建设,阿里云建设wordpress,抖音推广引流平台23 日语雀的故障相信大部分人都已经知道了#xff0c;官方发布的公告是这样的#xff1a; 10 月 23 日语雀出现重大服务故障#xff0c;且持续 7 个多小时才完全恢复#xff0c;给用户使用造成极大不便#xff0c;对此我们深感抱歉。经过复盘#xff0c;我们在这里向大家…23 日语雀的故障相信大部分人都已经知道了官方发布的公告是这样的 10 月 23 日语雀出现重大服务故障且持续 7 个多小时才完全恢复给用户使用造成极大不便对此我们深感抱歉。经过复盘我们在这里向大家进一步说明故障原因、修复过程和改进措施。 故障原因及处理过程 10 月 23 日下午服务语雀的数据存储运维团队在进行升级操作时由于新的运维升级工具 bug导致华东地区生产环境存储服务器被误下线。受其影响语雀数据服务发生严重故障造成大面积的服务中断。为了尽快恢复服务我们和数据存储运维团队全力进行数据恢复工作但受限于恢复方案、数据量级等因素整体用时较长。具体过程如下 14:07 数据存储运维团队收到监控系统报警定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线14:15 联系硬件团队尝试将下线机器重新上线15:00 确认因存储系统使用的机器类别较老无法直接操作上线立即调整恢复方案为从备份系统中恢复存储数据。15:10 开始新建存储系统从备份中开始恢复数据由于语雀数据量庞大此过程历时较长19 点完成数据恢复同时为保障数据完整性在完成恢复后用时 2 个小时进行数据校验21 点存储系统通过完整性校验开始和语雀团队联调最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。 改进措施 1、升级硬件版本和机型实现离线后的快速上线。该措施在本次故障修复中已完成 2、运维团队加强运维工具的质量保障与测试杜绝此类运维 bug 再次发生 3、缩小运维动作灰度范围增加灰度时间提前发现 bug 4、从架构和高可用层面改进服务为语雀增加存储系统的异地灾备。 赔偿方案 为了表达我们的歉意我们将向所有受到故障影响的用户提供如下赔偿方案 针对语雀个人用户我们赠送 6 个月的会员服务。操作流程进入工作台「账户设置」点击左侧「会员信息」在会员信息页面点击「立即领取」即可获得赠送服务。 先领会员
点击“账户设置”-“会员信息”-“立即领取” 操作很简单也很丝滑半年语雀会员就到手了。 感谢官方大大。
问题反思
一定要有异地容灾冷备份。一定要做好规范操作培训工作提高认识高度。一定要有线上重大操作的完整审计流程。一定要定期测试和演练。
小结
作为一个2C的大众应用类产品一定要做好容灾及管理工作。用户对产品的“信任”是最重要的一旦被贴上标签那之前的一切努力可能就都毁了。要做到小事故最好没有大事故坚决不能有。望共勉。
这件事情也时刻提醒我们要做好个人信息的管理和备份起码要多平台定期备份X度X雷X讯这样才不会太被动。