a vasta Amazônia serviço web interrupção na nuvem O incidente, que começou na manhã de segunda-feira, interrompeu as principais plataformas de comunicação, financeiras, de saúde, de educação e governamentais em todo o mundo, destacando a frágil interdependência da Internet. como Os dias se passaramA AWS começou a trabalhar no diagnóstico e na correção do problema na região crítica US-EAST-1 da empresa, que fica na Virgínia do Norte. No entanto, a cascata de efeitos levou algum tempo para ser totalmente resolvida.
Os pesquisadores que analisaram o incidente destacaram especificamente a duração da interrupção, que começou por volta das 3h ET de segunda-feira, 20 de outubro. A AWS disse em uma atualização de status que por volta das 18h01. ET na segunda-feira, “todos os serviços da AWS retornaram às operações normais”. A interrupção foi diretamente atribuída à interface de programação de aplicativos de banco de dados DynamoDB da Amazon, e a empresa disse que “impactou” 141 outros serviços da AWS. Vários engenheiros de rede e especialistas em infraestrutura enfatizaram à WIRED que os erros são compreensíveis e inevitáveis, dada a complexidade e escala dos chamados “hiperscaladores”, como AWS, Microsoft Azure e Google Cloud Platform. Mas eles também observaram que esta realidade não deveria simplesmente desculpar os provedores de nuvem de passarem por períodos de inatividade prolongados.
“Essa palavra é retrospectiva é a chave. “É fácil descobrir o que deu errado depois do fato, mas a confiabilidade geral da AWS mostra como é difícil evitar todas as falhas. Idealmente, isso será uma lição e a Amazon introduzirá mais redundância para evitar que tais desastres aconteçam no futuro, ou pelo menos para evitar que as interrupções continuem pelo mesmo tempo que aconteciam antes.”
A AWS não respondeu às perguntas da WIRED sobre a longa cauda da recuperação do cliente. Um porta-voz da AWS disse que a empresa planeja divulgar um de seus “resumos pós-ação” sobre o incidente.
“Não achamos que esta seja apenas uma falha de ‘evento normal’. Esperávamos que um reparo completo ocorresse mais cedo”, disse Jake Williams, vice-presidente de pesquisa e desenvolvimento da Hunter Strategy. “Naturalmente, as falhas em cascata não lhes dão muita experiência porque não têm interrupções frequentes. Isso é um crédito deles. Mas é muito fácil entrar na mentalidade de dar uma chance a essas empresas. Devemos lembrar que estamos criando esta situação tentando agressivamente atrair mais clientes do que nunca para nossas estruturas. Os clientes não têm controle sobre se estão se sobrecarregando ou o que lhes acontecerá financeiramente.”
Este incidente foi causado por um problema de resolução do Sistema de Nomes de Domínio, que é uma causa comum de falhas na web. O DNS é essencialmente o mecanismo de lista telefônica da Internet para direcionar os navegadores da Web ao servidor apropriado. Como resultado, os problemas de DNS são uma causa comum de interrupções porque podem causar falhas nas solicitações e impedir o carregamento do conteúdo.