Como um Único e Mal Atualizado da CrowdStrike Derrubou os Computadores do Mundo
Raramente uma única peça de código consegue destruir instantaneamente sistemas computacionais em todo o mundo. O worm Slammer de 2003, o ciberataque NotPetya da Rússia direcionado para a Ucrânia e o ransomware auto-replicante WannaCry da Coreia do Norte são alguns dos poucos exemplos na história. Mas a catástrofe digital em andamento que abalou a internet e a infraestrutura de TI ao redor do globo nas últimas 12 horas parece ter sido desencadeada não por um código malicioso lançado por hackers, mas pelo próprio software projetado para detê-los.
Uma Tempestade Perfeita de Desastres
Dois desastres de infraestrutura da internet colidiram na sexta-feira para produzir interrupções em todo o mundo em aeroportos, sistemas ferroviários, bancos, organizações de saúde, hotéis, emissoras de televisão e muito mais. Na quinta-feira à noite, a plataforma de nuvem da Microsoft, o Azure, experimentou uma ampla interrupção. Na sexta-feira pela manhã, a situação se transformou em uma tempestade perfeita quando a empresa de segurança CrowdStrike lançou uma atualização de software com defeito que enviou computadores Windows a um espiral catastrófico de reinicialização.
O Culpado: Uma Atualização Defeituosa da CrowdStrike
A causa de um desses dois desastres, pelo menos, ficou clara: um código com bug lançado como uma atualização para o produto de monitoramento Falcon da CrowdStrike, essencialmente uma plataforma de antivírus que opera com acesso profundo ao sistema em “endpoints” como laptops, servidores e roteadores para detectar malware e atividade suspeita que possa indicar comprometimento. O Falcon requer permissão para atualizar-se automaticamente e regularmente, uma vez que a CrowdStrike está constantemente adicionando novas detecções ao sistema para se defender contra ameaças novas e em evolução. O inconveniente dessa configuração, no entanto, é o risco de que esse sistema, que visa melhorar a segurança e a estabilidade, possa acabar minando-as em vez disso.
Um Desastre de Proporções Épicas
“É o maior caso da história. Nunca tivemos uma interrupção mundial de estações de trabalho como esta”, diz Mikko Hyppönen, diretor de pesquisa da empresa de cibersegurança WithSecure. Cerca de uma década atrás, Hyppönen afirma, interrupções generalizadas eram mais comuns devido à propagação de worms ou trojans. Mais recentemente, as interrupções globais têm acontecido no “lado do servidor” dos sistemas, o que significa que as interrupções muitas vezes se originam de provedores de nuvem como a Amazon’s Web Services, cortes de cabos de internet ou problemas de autenticação e DNS.
A Causa da Catástrofe
O CEO da CrowdStrike, George Kurtz, disse na sexta-feira que os problemas foram causados por um “defeito” no código que a empresa lançou para o Windows. Os sistemas Mac e Linux não foram afetados. “O problema foi identificado, isolado e uma correção foi implantada”, disse Kurtz em um comunicado, acrescentando que os problemas não foram o resultado de um ciberataque. Em uma entrevista à NBC, Kurtz pediu desculpas pela interrupção e disse que pode levar algum tempo para que as coisas voltem ao normal.
O Impacto Devastador
As interrupções generalizadas do Windows foram vinculadas a uma atualização de software da gigante de cibersegurança CrowdStrike. Acredita-se que os problemas não estejam vinculados a um ciberataque malicioso, dizem autoridades de segurança cibernética, mas sim a uma atualização mal configurada/corrompida que a CrowdStrike enviou a seus clientes.
Entendendo a Causa Raiz
Em uma atualização mais detalhada na sexta-feira à noite, a CrowdStrike escreveu em um post no blog que a causa raiz do colapso havia sido um único arquivo de configuração enviado como uma atualização para o Falcon. A atualização visava especificamente alterar a forma como o Falcon inspeciona os “pipes nomeados” no Windows, um recurso que permite que o software envie dados entre processos na mesma máquina ou com outros computadores na rede local. A CrowdStrike diz que a atualização do arquivo de configuração visava permitir que o Falcon detectasse um novo método que os hackers estavam usando para comunicação entre seu malware em máquinas vítimas e servidores de comando e controle. “A atualização de configuração desencadeou um erro de lógica que resultou em um travamento do sistema operacional”, diz o post.
A Fragilidade da Infraestrutura Digital Global
A situação catastrófica reflete a fragilidade e a profunda interconexão da internet. Inúmeros profissionais de segurança disseram à WIRED que anteciparam ou até mesmo trabalharam com clientes para tentar proteger contra um cenário em que o próprio software de defesa causasse falhas em cascata como resultado de exploração maliciosa ou erro humano, como é o caso da CrowdStrike. “Esta é uma ilustração incrivelmente poderosa de nossas vulnerabilidades digitais globais e da fragilidade da infraestrutura central da internet”, diz Ciaran Martin, professor da Universidade de Oxford e ex-chefe do Centro Nacional de Segurança Cibernética do Reino Unido.
Lições Aprendidas e Próximos Passos
Enquanto muitos dos impactos da interrupção estão em andamento e ainda se desenrolando, a natureza do problema significa que as máquinas afetadas individualmente podem precisar ser reiniciadas manualmente, em vez de por meio de um processo automático. “Pode levar algum tempo para que alguns sistemas se recuperem automaticamente”, disse o CEO da CrowdStrike, Kurtz, à NBC.
À medida que os administradores de sistemas se esforçam para conter os danos, a maior questão existencial de como evitar outra crise semelhante paira no ar. “As pessoas podem agora exigir mudanças nesse modelo operacional”, diz Jake Williams, vice-presidente de pesquisa e desenvolvimento da consultoria de cibersegurança Hunter Strategy. “Para melhor ou pior, a CrowdStrike acaba de mostrar por que empurrar atualizações sem a intervenção da TI é insustentável.”
Conclusão
Esta catástrofe digital colocou em evidência a fragilidade da infraestrutura global de tecnologia e a importância crítica de garantir a segurança e a estabilidade dos sistemas essenciais. À medida que a indústria de cibersegurança e os líderes de TI se esforçam para conter os danos e restabelecer a normalidade, é essencial que eles aprendam com esse incidente e tomem medidas para evitar que uma crise semelhante aconteça novamente no futuro. Apenas assim poderemos construir uma infraestrutura digital verdadeiramente resiliente e confiável.
Principais Conclusões:
- Uma única atualização defeituosa da CrowdStrike desencadeou uma catástrofe global sem precedentes, afetando aeroportos, sistemas bancários, hospitais e outros setores críticos em todo o mundo.
- A causa foi um erro de configuração no software de segurança Falcon da CrowdStrike, que acabou causando o colapso de computadores Windows em uma escala massiva.
- A crise revelou a fragilidade e a interconexão profunda da infraestrutura digital global, destacando a necessidade urgente de melhorar os processos de desenvolvimento e implementação de atualizações de segurança.