---
title: "A nuvem tirou folga: Pane global da AWS foi causada por uma 'corrida' de DNS no DynamoDB"
author: "Gustavo Ramos O. Klein"
date: "2025-10-24 08:53:00-03"
category: "Tecnologia & Desenvolvimento"
url: "http://desbugados.scale.press/portal/desbugados/post/2025/10/24/a-nuvem-tirou-folga-pane-global-da-aws-foi-causada-por-uma-corrida-de-dns-no-dynamodb/md"
---

# Pane na AWS: A Diplomacia Digital que Falhou e Derrubou a Internet

Se no dia 20 de outubro de 2025 você sentiu que metade da internet tirou uma folga não programada, você não estava errado. Serviços como Snapchat, Reddit, Fortnite e até plataformas bancárias ficaram inacessíveis por horas, gerando caos e memes em escala global. O mistério acabou: a Amazon Web Services (AWS) publicou seu relatório post-mortem, detalhando a causa da pane que começou em sua principal região, a US-East-1 na Virgínia do Norte. O culpado não foi um ataque hacker, mas sim uma falha de comunicação interna, uma espécie de crise diplomática entre dois sistemas automatizados que culminou em uma "condição de corrida" (race condition) no coração do seu banco de dados, o DynamoDB.

## O Duelo dos Autômatos: A Causa da Pane

Para entender o que aconteceu, precisamos pensar no sistema de gerenciamento de DNS da AWS como uma embaixada digital com dois diplomatas responsáveis por garantir que o tráfego da internet sempre encontre o caminho certo. De acordo com o relatório da Amazon, detalhado por publicações como **The Register**, esses dois componentes são o **DNS Planner** e o **DNS Enactor**. O Planner é o estrategista: ele monitora a saúde dos sistemas e cria planos de rota. O Enactor é o executor: ele pega esses planos e os aplica usando o Amazon Route 53, o GPS da AWS.

O problema começou quando um dos Enactors enfrentou um atraso incomum, como um diplomata preso no trânsito. Enquanto isso, o Planner, sem saber do atraso, continuou gerando novos planos de rota. Um segundo Enactor, pontual como sempre, começou a aplicar esses planos mais recentes. Foi aí que a diplomacia falhou. Quando o primeiro Enactor finalmente concluiu sua tarefa atrasada, o segundo iniciou um processo de limpeza automática. Ele viu o plano antigo e, considerando-o obsoleto, o descartou. Só que, nesse processo, ele apagou o plano que ainda estava ativo, removendo todos os endereços de IP do DynamoDB. Em termos simples, ele jogou fora o livro de endereços principal da AWS, deixando o serviço de banco de dados completamente isolado e inacessível.

## O Efeito Dominó: Como uma Falha Contaminou a Nuvem

Com o DynamoDB — um serviço fundamental que funciona como o "cartório" onde muitos outros serviços da AWS guardam suas informações — fora do ar, o efeito cascata foi inevitável. A falha inicial de DNS se espalhou como um vírus pela infraestrutura. O primeiro grande serviço a sentir o baque foi o EC2, responsável por fornecer servidores virtuais. Segundo a AWS, o sistema que gerencia os servidores físicos (DWFM) depende do DynamoDB. Sem conseguir se comunicar, ele não conseguia renovar as "locações" dos servidores, causando falhas em massa no lançamento de novas instâncias.

A partir daí, a bola de neve só cresceu. O serviço de balanceamento de carga (Network Load Balancer) começou a falhar em suas checagens de saúde, derrubando instâncias recém-lançadas. Isso, por sua vez, impactou todos os serviços que dependem do EC2 para funcionar, como o Lambda, Elastic Container Service (ECS), Elastic Kubernetes Service (EKS) e Fargate. A nuvem entrou no que o relatório descreveu como um "colapso congestivo", uma espécie de engarrafamento monumental onde a tentativa de consertar um problema acabava gerando outros, exigindo intervenção manual para restaurar a ordem.

## A Conta Chegou: Impacto e Lições (Caras) Aprendidas

Uma falha de algumas horas pode parecer pouco, mas no mundo digital, o tempo é literalmente dinheiro. O blog **New Relic** destaca que, segundo sua pesquisa "Observability Forecast 2025", o custo médio de uma pane de aplicação pode chegar a **US$ 2,2 milhões por hora**. Algumas estimativas, citadas pelo The Register, sugerem que o prejuízo total desta pane da AWS pode chegar à casa das centenas de bilhões de dólares. O incidente é um lembrete visceral da dependência que o mundo tem de um pequeno número de provedores de nuvem.

Como bem apontou Eduardo Gonçalves, country manager da Check Point Software Brasil, em análise para o **Computer Weekly**, o episódio reforça a necessidade de diversificação e resiliência digital. Para as empresas brasileiras e globais, a lição é clara: não se deve manter todos os ovos em uma única nuvem. É fundamental ter planos de contingência robustos e testá-los regularmente. Ele ainda alerta que, em momentos de crise como este, os cibercriminosos aproveitam a confusão para lançar golpes de phishing com falsas ofertas de "reembolso" ou links maliciosos. A resiliência, portanto, não é apenas técnica, mas também cultural.

Como medida imediata, a AWS desativou a automação do DNS Planner e Enactor em todo o mundo, até que novas salvaguardas possam ser implementadas. O incidente serve como um lembrete: no complexo ecossistema de serviços interconectados que forma a nuvem, até os gigantes dependem de uma comunicação impecável entre suas partes. Será que a aposta em automação total, sem mecanismos de proteção mais sofisticados, está nos deixando perigosamente expostos a um colapso em cascata? A nuvem tirou uma folga forçada, mas deixou uma lição para todos nós refletirmos.

