Liv McMahonRepórter de tecnologia E
Lily JamaliCorrespondente de tecnologia norte-americano
Imagens GettyA Amazon Web Services (AWS) disse na noite de segunda-feira que havia resolvido uma grande interrupção que deixou alguns dos maiores sites do mundo offline durante grande parte do dia.
Mais de 1.000 aplicativos e sites – incluindo plataformas de mídia social como Snapchat e bancos como Lloyds e Halifax – foram afetados por problemas que a Amazon disse serem fundamentais para as operações da gigante da computação em nuvem nos EUA.
O monitor de interrupção da plataforma Downdetector relatou que os relatos de problemas de usuários em todo o mundo durante a interrupção na segunda-feira aumentaram para mais de 11 milhões.
Mesmo depois de a Amazon ter resolvido o problema subjacente, os especialistas disseram que a interrupção demonstrou os perigos de tantas empresas dependerem de um único fornecedor dominante.
“O que este episódio destaca é o quão interdependente é a nossa infraestrutura”, disse o professor Alan Woodward, da Universidade de Surrey.
“Muitos serviços online dependem de terceiros para a sua infraestrutura física, e isso mostra que os maiores problemas também podem ocorrer dentro desses fornecedores terceirizados.
“Pequenos erros, muitas vezes cometidos pelo homem, podem ter impactos enormes e significativos”.
Os problemas parecem ter começado às 07h00 BST de segunda-feira, quando os usuários começaram a relatar problemas de acesso a diversas plataformas.
Inclui uma ampla variedade de sites e serviços diferentes, desde jogos online massivos como Fortnite até o aplicativo de aprendizagem de idiomas Duolingo.
No início do dia, o Downdetector disse à BBC que viu mais de quatro milhões de relatórios de usuários de 500 sites em apenas algumas horas – mais que o dobro do que vê durante um dia normal da semana.
Mais tarde, estes atingiram um pico de mais de 11 milhões, à medida que mais serviços tentavam se recuperar, incluindo Reddit e Lloyds Bank, disse.
Por volta das 23h BST, a Amazon disse que todos os serviços da AWS “voltaram às operações normais”.
Mas a empresa teve que controlar partes do seu próprio sistema para resolver a raiz do problema.
De acordo com Mike Chapple, professor de tecnologia da informação da Universidade de Notre Dame, uma nova série de “falhas em cascata” pode ocorrer após a interrupção inicial.
“É como quando você tem uma queda de energia em grande escala. As equipes começam a trabalhar tentando colocá-la novamente em funcionamento”, disse Chapple. “A energia pode ter oscilado algumas vezes”, explicou ele, mas é possível que a Amazon estivesse inicialmente “apenas tratando dos sintomas” e não da causa.
O que deu errado?
A Amazon ainda não forneceu detalhes completos ou emitiu uma declaração oficial sobre a interrupção de segunda-feira.
Ele disse em uma atualização em sua página de status de serviço que o problema “parece estar relacionado à resolução de DNS do endpoint da API DynamoDB em US-EAST-1”.
DNS, que significa Sistema de Nomes de Domínio, é frequentemente comparado a uma lista telefônica da Internet.
Ele traduz efetivamente nomes de sites que as pessoas usam (por exemplo, bbc.co.uk) em números que podem ser lidos e compreendidos por computadores.
Este processo baseia-se em grande parte na forma como utilizamos a Internet, e interrupções no mesmo podem fazer com que os navegadores não consigam localizar o conteúdo que procuram.
O presidente-executivo da Cloudflare, Matthew Prince, disse à BBC que a interrupção da AWS destaca o poder que os serviços em nuvem têm sobre o funcionamento da Internet.
“Todo mundo tem um dia ruim, a Amazon teve um dia ruim hoje”, disse ele.
“Há coisas incríveis sobre a nuvem, ela permite escalar… mas se houver uma interrupção como essa, ela pode derrubar muitos dos serviços dos quais dependemos.”
E Corey Crider, chefe do Future of Technology Institute, disse à BBC que foi “um pouco como uma ponte desabando”.
“Uma parte essencial da economia foi fragmentada”, disse ele.
E com tanta computação em nuvem dependendo da Amazon, Microsoft e Google – estimada em cerca de 70% – o status quo é “insustentável”, disse ele.
“Quando se tem uma oferta concentrada num punhado de fornecedores monopolistas, quando algo assim fracassa, é preciso uma enorme percentagem da economia”, disse ele.
“Em vez de depender de um punhado de plataformas monopolistas americanas, deveríamos tentar comprar mais serviços locais.
“Isto representa um risco para a nossa segurança, a nossa soberania e a nossa economia, e precisamos de considerar rupturas estruturais para tornar os nossos mercados mais resilientes a tais choques.”
Um especialista em ciência da computação disse que parte da responsabilidade recai sobre as empresas que usam a AWS.
“As empresas que usam a Amazon não estão tomando cuidado suficiente para incorporar segurança em seus aplicativos”, disse Ken Bierman, professor de ciência da computação na Universidade Cornell, em Nova York.
Interrupções como a de segunda-feira acontecem com mais frequência, embora nem sempre nesta escala.
Birman disse à BBC que os desenvolvedores de aplicativos devem ter o cuidado de investir em backups de aplicativos de missão crítica na nuvem.
“Sabemos como tornar estes sistemas mais fortes e como fazê-lo com segurança”, disse Bierman.
Podem surgir questões de responsabilidade em tribunal.
Mais de um ano após a paralisação massiva da greve coletiva, a Delta Airlines ainda está brigando com a empresa para recuperar mais de US$ 500 milhões em perdas.
Mesmo depois de resolver o problema da greve coletiva, a companhia aérea disse que teve que redefinir manualmente 40.000 servidores, causando grandes atrasos nos voos por vários dias.
Reportagem adicional de Esyllt Carr.




















