文章转自:戴尔易安信解决方案微信公众号
北京时间昨晚7:30分左右,谷歌又双叒遭遇了瘫痪事件,而且这次影响还不小,旗下Gmail邮箱,谷歌日历、视频网站YouTube等服务在全球都受到了影响。
至于为什么说又双叒,因为这已经是近5个月以来,谷歌的第3次宕机大规模事件(SRE年终奖不保...)。
之后,谷歌云在推特上
发布了对于这次问题的简要介绍
☟☟☟
而就是其中的
“internal storage quota issue”
让很多人误以为是存储容量写满导致
让广大吃瓜群众,着实欢乐了一把
☟☟☟
也让抓紧蹭热点的小编,差点祭出了最近的一个真实案例,顺便也推荐谷歌用用这个——戴尔科技存储优化服务。
不过,万事留个心眼,先不说因磁盘写满导致宕机这样的低级错误,在今天任何一家正常运行的公司都不太可能发生(监控和报警去哪了)更何况谷歌这样的大公司。
保险起见,小编去问了问老朋友,戴尔科技售前工程师刘工。
刘工,请教一个问题:昨晚谷歌的宕机事件,真的是磁盘写满导致的吗?
storage quota问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。
自动配额八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额。
明白了,谢谢!
果然,谷歌在其Google Cloud Status Dashboard发布的本次宕机事件的初步报告,也证实了这一点
翻译:
Google Cloud Platform和Google Workspace经历了一次全球中断,影响了所有需要Google账户认证的服务,持续时间为50分钟。根本原因是我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。
自动配额管理系统出现了问题(原因),导致了谷歌中央身份管理系统的容量降低(结果),引发谷歌服务宕机(结果)。
所以,并不是磁盘写满导致谷歌服务宕机,自动配额管理系统,才是真正的元凶。
最后来一波硬广
最近,戴尔科技某个客户遭遇了磁盘写满事件,幸运的是,多亏了“私人医生”的及时提醒,一场宕机化险为夷。而这个服务就是戴尔科技存储优化服务。
简单来说,戴尔科技存储优化服务是面向戴尔易安信存储如Unity/PowerStore等推出的优化服务,可以实时监控客户存储系统状态,还提供深入、预测式分析和存储专家指导,以及年度上门/远程战略规划、日常配置维护等,堪比客户存储的私人医生。从此客户在IT运维上就能做到高枕无忧,可以有更多的时间去考虑上层应用系统、业务系统。
让客户把时间花在更有价值的事情上,这就是戴尔科技存储优化服务的价值所在。
戴尔科技存储优化服务介绍
❶ 存储性能调优:存储技术客户经理会日常检查存储日志,检查存储性能指标,如果发现存储访问有比较高的延时,我们就会主动联络客户进行相关的分析检查,协助找出问题所在;
❷ 存储空间调优:当我们发现存储空间分配和使用不合理或者不是最优的时候,优化技术客户经理就会主动联系客户,进行相关的空间调优和重新分配,尤其是空间使用极度紧张的情况,就需要提前进行空间预警,释放空间,避免由于空间问题导 致的系统访问影响;
❸ 存储配置文件和存储快照配置文件的调优:存储配置文件和快照配置决定存储磁盘层和空间的合理分配使用,如果配置不合理会造成空间使用效率低下,影响存储效率;
❹ 非常好的实践检查和知识传授:培养客户专业技术能力,成就客户成功。