관리자 없이 협력업체가 대낮에 작업…네트워크 분리 없이 진행

[서울이코노미뉴스 김보름 기자] 지난 25일 발생한 KT의 전국적인 유·무선 인터넷 장애 사태는 KT의 허술하고도 안일한 시스템 관리 체계가 빚은 ‘인재’로 밝혀졌다.
사고는 KT 측 관리자가 없는 상태에서 대낮에 협력업체 직원끼리 작업을 하던 중 실수로 발생했다.
작업자가 명령어 한 단어를 누락한 것이 불씨가 됐고 불시 사고에 대한 안전장치가 없는 탓에 순식간에 전국으로 확산됐다.
그런데도 KT는 처음에는 “대규모 디도스 공격 때문”이라고 해명을 했다. 파문의 확산을 외부로 돌리려는 의도적인 거짓 해명이었다는 지적이 내부에서도 나오고 있다.
과학기술정보통신부는 29일 정보보호·네트워크 전문가로 구성된 사고조사반과 함께 사태 경위와 원인을 조사·분석한 결과를 발표했다.
부산에서 라우터 교체 중 실수 저질러…서울 거쳐 순식간에 전국으로 확산

이에 따르면 사고는 지난 25일 KT 부산국사에서 기업망 라우터(네트워크간 통신을 중개하는 장치)를 교체하던 중 일어났다.
사고의 직접 원인은 협력업체 직원의 실수였다. 교체 장비의 '라우팅'(네트워크 경로 설정)을 하다가 정보를 입력하는 과정에서 들어가야 할 명령어 중 '엑시트'(exit)라는 단어를 빠뜨렸다는 것이다. 라우팅은 기지국에서 송신하는 데이터를 수신자(이용자)의 고유 주소를 찾아가는 ‘경로 설정’을 하는 작업이다.
전체 스크립트(명령글)에 오류가 있는지를 확인하는 사전 검증 단계가 두 차례 있었지만, 명령어 누락은 발견되지 않았다.
이 때문에 게이트웨이 프로토콜(BGP·Border Gateway Protocol)로 교환돼야 할 경로 정보가 내부 게이트웨이에 쓰이는 IS-IS 프로토콜로 잘못 전송됐다.
통상 1만 건 내외 정보를 교환하는 IS-IS 프로토콜에 그 수 십만배 규모인 BGP 정보가 전송되다보니 오류가 발생했다는 것이다.
정보 입력이 수작업으로 이뤄지는 만큼 오류 발생 가능성이 상존하는데도 이에 대비하는 시스템은 허술하기 그지없었다.
특히 지역에서 발생한 오류가 전국으로 확산하는 것을 차단하는 시스템 부재가 전국적 ‘먹통 사태’의 결정적인 원인이었다.
이 과정에서 전국 모든 지역 라우터와 연결된 서울 혜화 센터와 구로 센터가 오류 확산의 허브가 됐다. 전체 라우터에 오류가 전파되기까지 걸린 시간은 30초 이내였다.
문제의 작업은 KT측 작업 관리자 없이 협력업체 직원들끼리만 수행하도록 한 것으로 드러났다.
외부인이 멋대로 전체 시스템을 마비시킬 수 있는 작업을 한 것으로, 기본적인 물리적 보안 체계도 갖추지 않은 셈이다.
사고 가능성은 아랑곳없이 네트워크를 정상으로 연결한 채 작업을 해 전국 망이 그대로 위험에 노출됐다.
장비 교체는 심야가 원칙…“디도스 공격 때문”은 의도적 거짓 해명일수도

장비 교체는 심야에 하는 것이 원칙이지만 대낮에 작업을 하면서 피해가 속수무책으로 번졌다.
당초 KT 네트워크관제센터는 협력업체가 교체 작업을 26일 오전 1∼6시에 진행하도록 승인했지만, 무슨 이유인지 계획을 바꾸어 낮에 작업을 진행했다는 것이다.
결국 교체 작업 중간인 오전 11시 16분쯤부터 네트워크 장애가 시작돼 낮 12시 45분까지 89분간 서비스가 전국적으로 먹통이 돼 큰 혼란을 빚었다.
특정 통신사의 기지국이 화재나 지진 등으로 손상되면 다른 통신사 망을 활용해 통화나 문자를 제공토록 한 재난로밍 서비스는 이번 사고에서는 무용지물이었다.
먹통 상황이 KT의 심장부인 '코어 네트워크‘까지 번져 재난로밍 시스템이 실행될 수 없었다는 것이다.
KT가 사고 발생 직후 원인으로 지목한 분산서비스거부(DDoS·디도스) 공격은 없었던 것으로 드러났다.
KT새노조는 사태 초기 KT가 “대규모 디도스 공격 때문”이라고 해명한 것도 의도적 거짓말이었을 가능성도 크다고 지적했다. 디도스 공격을 상시 모니터링하고 있는 KT에서 디도스 공격 여부를 몰랐다는 것은 말이 안 된다는 것이다.
거짓 해명이 사실로 밝혀지면 그에 대한 책임도 물어야 한다는 것이 노조의 주장이다.