AI 클라우드, 이제 "누가 이 시스템을 관리하는지"도 스스로 결정한다 — 클라우드 운영 거버넌스의 인간이 사라지고 있다

지금 당신의 클라우드 환경에서는 AI가 네트워크를 재구성하고, 암호화 키를 교체하고, 데이터를 삭제하고, 비용을 재배분하고, 멀티클라우드 워크로드를 이동시키고 있다. 그 각각의 결정에 "누가 승인했는가"라는 질문을 던지면, 대부분의 기업은 침묵한다. 그런데 이제 AI 클라우드 자동화는 한 단계 더 나아가고 있다. 단순히 개별 도메인에서 자율 결정을 내리는 것을 넘어, "이 시스템 전체를 누가 운영할 것인가" — 즉 운영 역할과 책임의 배분 자체를 AI가 결정하기 시작했다.

이것은 지금까지 내가 이 시리즈에서 다뤄온 모든 거버넌스 균열의 수렴점이다. 스케일링, IAM, 패치, 로그, 복구, 비용, 스토리지, 네트워크, 암호화, 멀티클라우드, 그리고 이 모든 것을 조율하는 자율 의사결정 레이어까지 — 이제 AI는 그 레이어 위에서 "누가 무엇을 책임지는가" 라는 조직적 질문에까지 손을 뻗고 있다.

AI 클라우드가 "운영 책임"을 재배분하는 방식

전통적인 클라우드 운영 모델에서 역할 배분은 명확했다. RACI 매트릭스가 있었고, 변경관리 위원회(CAB)가 있었고, 각 도메인별 소유자(Owner)가 지정되어 있었다. 인프라 팀이 네트워크를 소유하고, 보안팀이 IAM을 소유하고, FinOps 팀이 비용을 소유했다.

그런데 AI 기반 클라우드 운영 플랫폼들 — AWS의 Systems Manager Automation, Google Cloud의 Active Assist, Azure의 Advisor와 Autopilot 계열 기능들 — 은 이 경계를 조용히 허물고 있다. 이 도구들은 단순히 "추천"을 넘어 자율 실행으로 이동하면서, 기존에 인간 팀이 소유하던 결정권을 사실상 흡수하고 있다.

구체적으로 어떤 일이 벌어지고 있는가?

첫째, AI가 운영 우선순위를 재정렬한다. 예를 들어 비용 최적화 AI가 특정 워크로드를 다른 리전으로 이동시키면, 그 결정은 네트워크 팀의 라우팅 정책, 보안팀의 데이터 레지던시 규정, 인프라팀의 용량 계획 모두에 영향을 미친다. 하지만 이 결정을 내린 AI는 어느 팀에도 속하지 않는다.

둘째, AI가 에스컬레이션 경로를 우회한다. 장애 복구 AI가 자동으로 페일오버를 실행할 때, 그 결정은 원래라면 on-call 엔지니어 → 시니어 엔지니어 → 관리자로 이어지는 에스컬레이션 체계를 거쳤어야 한다. AI는 이 경로를 "효율"이라는 이름으로 건너뛴다.

셋째, AI가 팀 간 경계를 재정의한다. 옵저버빌리티 AI가 어떤 알림을 억제할지 결정하면, 그것은 사실상 "어떤 팀이 어떤 신호를 받을 것인가"를 결정하는 것이다. 이는 조직 설계의 문제인데, 아무도 그 결정을 승인하지 않았다.

"책임의 공백" — 감사관이 가장 두려워하는 시나리오

규제 감사 현장에서 가장 자주 듣는 질문은 이것이다: "이 변경의 승인자가 누구입니까?"

AI 자율 실행 환경에서 이 질문의 답은 점점 더 불분명해지고 있다. 기술 로그에는 "AI Automation Engine이 실행함"이라고 남는다. 변경 티켓은 없거나, 있더라도 AI가 자동 생성한 것이다. 비즈니스 맥락에서의 승인 — "이 변경이 우리 SLA에 미치는 영향을 이해하고 승인한 권한 있는 개인" — 은 존재하지 않는다.

이것이 단순한 절차 문제가 아닌 이유는 세 가지다.

1. 규제 요건의 문제다. SOC 2, ISO 27001, PCI-DSS, GDPR — 이 모든 프레임워크는 "변경에 대한 명시적 인간 승인"을 전제로 설계되어 있다. AI가 자율 실행한 변경은 이 전제를 충족하지 못할 가능성이 높다. 특히 금융권과 의료 분야에서는 이것이 심각한 컴플라이언스 위반으로 이어질 수 있다.

2. 사고 후 책임 소재의 문제다. 장애가 발생했을 때 "AI가 결정했다"는 것은 법적으로 책임을 면제해주지 않는다. 오히려 "왜 그 AI에게 그 권한을 부여했는가"라는 더 어려운 질문으로 이어진다. 책임은 사라지지 않고, 더 모호한 형태로 조직 전체에 분산된다.

3. 내부 통제의 붕괴 문제다. 직무분리(Segregation of Duties)는 내부 통제의 핵심이다. AI가 변경을 실행하고, 로그를 관리하고, 알림을 억제하고, 복구까지 수행한다면 — 이것은 한 주체가 실행·기록·검증을 모두 담당하는 상황이다. 이는 내부 통제 원칙의 근본적 위반이다.

AI 클라우드 자동화가 만들어내는 "그림자 운영 모델"

내가 가장 우려하는 것은 단일 AI 도구의 오작동이 아니다. 그것은 AI 도구들이 집합적으로 만들어내는 비공식 운영 모델 — 내가 "그림자 운영 모델(Shadow Operating Model)"이라고 부르는 것이다.

공식 운영 모델은 조직도에 있다. RACI 매트릭스가 있고, 변경관리 프로세스가 있고, 에스컬레이션 경로가 있다. 하지만 실제 클라우드 환경에서 벌어지는 일들 — 스케일링 결정, 패치 실행, 네트워크 재구성, 비용 재배분, 데이터 이동 — 의 상당 부분은 이미 AI 자동화가 담당하고 있다. 이것이 그림자 운영 모델이다.

이 그림자 운영 모델의 특성은 다음과 같다:

비가시성: 어떤 결정이 AI에 의해 이루어졌는지 전체 그림을 파악하는 사람이 없다
비일관성: 각 AI 도구가 서로 다른 최적화 목표를 가지고 있어, 집합적 결과가 일관된 운영 정책을 따르지 않는다
비승인성: 이 모델 전체를 승인한 사람이 없다. 개별 도구 도입은 승인받았지만, 그 도구들이 만들어내는 집합적 자율 운영 체계는 아무도 설계하지 않았고 아무도 승인하지 않았다

이것은 마치 조직이 공식적으로는 위원회 의사결정 구조를 채택하고 있지만, 실제로는 AI 알고리즘이 모든 중요한 결정을 내리는 상황과 같다. 공식 구조는 형식으로만 남고, 실질적 권력은 알고리즘에게 넘어간다.

실무에서 이미 나타나고 있는 징후들

이것이 먼 미래의 이야기가 아니라는 것을 보여주는 징후들은 이미 곳곳에서 나타나고 있다.

대형 클라우드 장애 사례들의 공통점: 최근 몇 년간 발생한 주요 클라우드 장애들을 들여다보면, "AI 자동화가 의도치 않은 연쇄 반응을 일으켰다"는 패턴이 반복된다. 자동 스케일링이 예상치 못한 비용 폭증을 일으키거나, 자동 패치가 의존성 충돌을 일으키거나, 자동 복구가 오히려 장애를 확산시키는 사례들이다.

컴플라이언스 감사 결과의 변화: 클라우드 보안 전문가들 사이에서는 "AI 자동화 관련 감사 발견 사항(Finding)"이 빠르게 증가하고 있다는 이야기가 나온다. 특히 "변경 승인 기록 부재"와 "직무분리 위반" 관련 발견 사항이 늘고 있는 것으로 보인다.

FinOps 팀의 역할 혼란: 비용 최적화 AI가 실질적인 지출 결정을 내리기 시작하면서, FinOps 팀의 역할이 "결정자"에서 "AI 결정의 사후 검토자"로 변화하고 있다. 이 변화가 공식적으로 인정되거나 설계된 것이 아니라는 점이 문제다.

그렇다면 어떻게 해야 하는가 — 실무적 접근

two hands touching each other in front of a blue background

Photo by Igor Omilaev on Unsplash

이 문제에 대한 해법은 "AI 자동화를 멈추자"가 아니다. AI 클라우드 자동화가 가져오는 효율과 속도는 실질적이고 포기할 수 없다. 문제는 자동화 자체가 아니라, 자동화와 거버넌스 사이의 설계 공백이다.

실무적으로 즉시 적용할 수 있는 접근을 제안한다.

1. AI 자동화 인벤토리부터 만들어라

지금 당신의 클라우드 환경에서 AI가 자율 실행하고 있는 것들의 목록을 만들어라. 각 항목에 대해 다음 세 가지를 확인하라:

이 자동화의 실행 범위는 무엇인가?
이 자동화의 승인자는 누구인가?
이 자동화의 실행 결과가 기록되고 있는가?

이 목록 자체가 없는 조직이 대부분이다. 목록이 없으면 거버넌스도 없다.

2. "AI 승인 게이트"를 설계하라

모든 자동화에 인간 승인이 필요한 것은 아니다. 하지만 특정 임계값 — 비용 영향, 보안 영향, 가용성 영향 — 을 초과하는 자동화 결정에는 인간 승인 게이트가 있어야 한다. 이 임계값을 명시적으로 정의하고, 문서화하고, 정기적으로 검토하라.

3. "AI 결정 감사 로그"를 별도로 관리하라

AI가 내린 결정의 로그는 일반 시스템 로그와 분리해서 관리해야 한다. 감사관이 "이 변경은 AI가 결정했고, 그 AI의 실행 권한은 누가 어떤 근거로 부여했는가"를 추적할 수 있어야 한다. 이것은 기술 로그가 아니라 거버넌스 로그다.

4. RACI를 AI 포함 버전으로 업데이트하라

기존 RACI 매트릭스에 "AI 자동화"를 하나의 행위자로 포함시켜라. AI가 Responsible한 영역, AI가 Accountable할 수 없는 영역(이 영역은 반드시 인간이 Accountable해야 한다), AI가 Consulted/Informed되는 영역을 명시하라. 이 작업 자체가 조직 내 AI 거버넌스 논의를 촉발하는 계기가 된다.

5. 그림자 운영 모델을 공식화하거나, 해체하라

AI 도구들이 이미 사실상의 운영 결정을 내리고 있다면, 두 가지 선택지가 있다. 첫째, 이 그림자 운영 모델을 공식화해서 명시적으로 설계하고 승인하라. 둘째, 이 모델이 조직의 리스크 허용 범위를 벗어난다면 자동화 범위를 제한하라. 어느 쪽이든, 현재의 "아무도 설계하지 않은 AI 운영 모델"을 방치하는 것은 선택지가 아니다.

규제 환경의 변화 — 지금이 전환점이다

GDPR의 자동화된 의사결정 조항은 이미 "인간에게 중요한 영향을 미치는 자동화 결정"에 대한 인간 검토권을 보장하고 있다. 이것이 클라우드 운영 결정에 어디까지 적용되는가는 아직 명확하지 않지만, 규제 기관들이 이 방향으로 해석을 확장할 가능성이 있다.

국내에서도 개인정보보호위원회의 자동화 의사결정 관련 가이드라인이 강화되는 추세이며, 금융위원회와 금융감독원의 클라우드 이용 가이드라인은 변경관리와 감사 추적에 대한 요건을 점점 더 구체화하고 있다. AI 클라우드 자동화가 이 요건들과 충돌하는 지점은 앞으로 더 선명하게 드러날 것이다.

이 문제는 단순히 기술 팀의 운영 효율 문제가 아니다. CTO와 CISO, 그리고 이사회 수준에서 "우리 조직의 AI 클라우드 자율화 범위를 어디까지 허용할 것인가"를 명시적으로 결정해야 하는 거버넌스 문제다.

공급망 지정학이 기업의 인프라 전략을 바꾸고 있는 것처럼(코리아엑심은행이 우즈베키스탄에 베팅하는 진짜 이유를 참고하라), AI 클라우드 거버넌스도 이제 경영진의 전략적 의제가 되어야 한다. 기술 팀에만 맡겨두기에는 그 파급력이 너무 크다.

기술은 단순히 기계가 아니라, 인간의 삶을 풍요롭게 하는 도구다. 하지만 그 도구가 "누가 이 조직을 운영하는가"라는 질문에까지 답하기 시작했을 때, 우리는 도구의 효율을 논하기 전에 먼저 통제권의 소재를 물어야 한다.

AI가 클라우드를 운영하는 것은 막을 수 없고, 막을 필요도 없다. 하지만 AI가 운영 책임의 구조 자체를 재편하는 것은 — 그것은 반드시 인간이 의식적으로 설계하고 승인해야 한다. 그 설계가 없다면, 당신의 클라우드 거버넌스는 이미 AI에게 위임된 것이다. 당신이 그 사실을 알든 모르든.

NOCODE TECH STACKER