Durante o período, devido a instabilidades da Google Cloud com determinado tipo de instâncias e zona, bem como carga de transferência irregular entre provedores Cloud, Plataforma e API passaram por indisponibilidade e instabilidade.
Indisponibilidade de meios de autenticação, autorização e navegação na Plataforma Neoway e utilização das suas APIs.
Durante o período do incidente, houve uma saturação no link de conectividade entre provedores Cloud, o que provocou um aumento abrupto e concentrado de tráfego na plataforma. Esse comportamento pressionou diretamente os serviços de autenticação e autorização, que passaram a operar sem recursos suficientes e, em seguida, ficaram indisponíveis.
Em condições normais, o ambiente reagiria com escalonamento automático para recompor a capacidade. No entanto, no mesmo intervalo ocorreu uma instabilidade simultânea em instâncias e em uma zona do Google Cloud, o que comprometeu o funcionamento do escalonamento automático e atrasou a recuperação (automática) dos serviços.
Em resumo, o incidente foi resultado da combinação de dois fatores no mesmo período: alta excepcional de tráfego causada por saturação de link entre Clouds e degradação de infraestrutura do provedor. Essa sobreposição reduziu a resiliência esperada do ambiente e elevou o tempo de normalização.
Com a atuação do time de engenharia, o tráfego foi estabilizado, a capacidade foi recomposta e os serviços foram restabelecidos de forma gradual e segura.