북미 AWS 장애, 예상치 못한 대혼란.

시장의 모든 이슈는 자본이 가장 빠르게 반영합니다.

북미 AWS 장애, 예상치 못한 대혼란.

현재 제가 재직중인 회사는 북미를 메인 타깃으로 글로벌 플랫폼을 운영하고 있습니다.

사업장은 국내에 있고, 북미 시장을 중심으로 서비스를 제공하다 보니 서버는 AWS us-east-1 리전을 사용하고 있습니다.

그런데, 어제 오후 4시 15분쯤.
제품팀과의 미팅 중에 서버 장애를 확인했습니다.

장애 화면

개발팀은 즉시 원인을 파악하기 시작했으나, 에러 로그도 없고 예상되는 써드파티 툴 문제도 발견되지 않아 당황스러웠습니다.

결국은 AWS의 장애로 확인되었습니다. AWS Health Dashboard 에서 상황을 확인할 수 있습니다. (16:11 KST 기준)

더 큰 문제는 장애 모니터링 툴로 사용하는 CloudWatch 마저 영향을 받아서 장애 알림을 받을 수가 없는 상황이었고, 장애 발생 후 30분이 지나도 해결되지 않았습니다.

IT 업계에서는 굉장히 큰 이슈임에도 관련 기사는 바로 나오지 않았는데 주가가 먼저 반응했습니다.

아마존, 장애시점 전후 주가 흐름

이후, 커뮤니티에서 하나둘 언급되고 시작했고, 언론에서도 보도되기 시작했습니다.

어제 Slack이 느리다고 느끼셨던 분들이 있다면, 아마도 이 영향을 받으셨을 겁니다.

다운디텍터(Downdetector) 에서는 영향을 받은 기업 리스트를 확인할 수 있는데, 이번 AWS 장애는 Amazon, Snapchat, Roblox, Figma, Reddit, YouTube, Netflix, LOL, Coinbase, Apple Music, Duolingo, Zoom 등 전 산업에 걸쳐 있습니다.

저희도 진행 중이던 모든 마케팅 캠페인을 중단하고 대응책을 논의했지만, 인프라 전체가 AWS에 의존하고 있다 보니 당장 취할 수 있는 조치는 없었습니다.

장애는 약 2시간 반 동안 지속, 저녁 7시쯤 완전히 복구되었습니다.

저희는 스타트업 규모라 피해가 상대적으로 크지 않았지만, 북미 기업들은 대혼란의 시간이었을 겁니다. 이후 피해 처리 과정도 만만치 않겠죠.

그리고, 기업들도 AWS 한 곳에 전적으로 의존하기 보다는 멀티 클라우드 도입도 진지하게 검토하지 않을까 생각됩니다.

과거, 업비트가 카카오 단일 로그인 기능을 제공해오다 심각한 장애를 경험하고 네이버 로그인 추가, 자체 로그인으로 변경한 것처럼 말이죠.

실제로 Azure를 운영하는 Microsoft의 주가는 반짝 급상승했었습니다.

이번 이슈는 AWS에서 발생한 가장 큰 장애 사례이지 않을까 싶은데요.

글로벌 서비스를 운영하며 겪은 인상 깊은 경험 중 하나로 기억될 것 같아서 개인 기록 차원에서 남겨둡니다.

관련 아티클