IT

카카오 장애에 대한 나의 생각

송시 2022. 10. 18. 22:56
728x90

카카오 장애가 발생했던 날 나는 꽤 빠르게 카카오 장애를 인지 할 수 있었다.

 

네이버클라우드의 WMS 를 통해서 모니터링 중이던 고객의 홈페이지에서 이상이 감지되었고 이로 인해 홈페이지에 문제가 있다는 문자를 받았다.

 

WMS 에서 어떤 부분에서 에러가 발생하고 있는지를 알 수 있었고 카카오 API와 연동하는 부분으로 문제가 발생했다.

 

그때 고객 홈페이지 서비스에 문제가 있지 않을까 하며 함께 일하는 동료들과 카톡으로 이야기를 주고 받던 중 카카오톡 마저 안되는 것을 보며 카카오톡 장애를 확신했다.

 

그리고 그 날 YTN 방송에서는 안전전문가협회 회장이란 분과 전화 인터뷰를 진행하며 발빠르게 소식을 전하고 있었다.

 

그리고 데이터센터 및 IT인프라에 대한 질문들을 했다.

 

나는 데이터센터 건물의 배터리 문제에 대한 조언을 안전전문가협회와 이야기하는 것은 어느정도 이해 가능한 범위내였지만

 

그외의 질문들은 차라리 데이터센터에서 근무하는 인프라 전문가와 이야기를 나누지 않았을까 하는 아쉬움이 많이 남았다.

 

하다 못해 데이터센터가 아니더라도 좋으니 IT 인프라에서 근무하는 사람과 이야기를 했더라면 하는 아쉬움 말이다.

 

그나마 다음날 고려대학원에서 보안관련 전문가와 인터뷰를 할 때 어제의 체증이 내려가는 기분이였다.

 

나는 SAN / Storage / OS 엔지니어를 시작으로 재해복구 시스템을 관리하는 어드민에서 클라우드 엔지니어로 활동중에 있다.

 

그런 내가 본 카카오 장애는 이해가 가고, 또 이해가 가지 않는다.

 

이원화라 부르고 이중화 또는 재해복구 시스템에 대해서 "그걸 왜 안했어?" 라는 멋 모르는 사람들의 시선과 카카오에서 사업을 지속적으로 유지하는 계획에 대해서는 진짜 재해복구 시스템이 있긴 했을가? 하는 생각이 든다.

 

한가지 확실한 사실은 재해복구 시스템이 갖추어져 있더라도 실제 재해 상황에서 시스템을 전환하는 일은 버튼 누르듯 쉬운 일이 아니라는 점이다.

 

클라우드라면 문제 없었을 것이다 라는 생각 또한 멀티 리전이 아니라면 클라우드 또한 단일장애에 자유롭지 못하다.

 

돈과 이중화를 위한 효율성 사이에 완벽한 기술력, 이 삼박자가 맞지 않는다면 "돈도 많이 벌었을 텐데 그걸 왜 안했어?" 라고 쉽게 말해선 안된다.

 

나는 한국이 카카오의 의존도가 높다는 것에 놀랐고, 비 IT 인도 아닌 IT 현업들이 재해복구를 쉽게 생각하는 것에 놀랐으며, 클라우드 엔지니어가 "멀티 리전이면 해결돼" 라고 쉽게 말하는 것에 놀랐다.

 

삼박자의 놀라움에 오랫만에 내 생각의 글을 작성해 봤다.

 

 

728x90

'IT' 카테고리의 다른 글

docker network host  (0) 2022.11.23
CKA 합격 솔직한 후기  (0) 2022.05.22
What are SCSI Reservations and SCSI Persistent Reservations?  (0) 2019.05.22