AI 클라우드, 이제 "무엇을 실행할지"도 스스로 결정한다 — 그 컴퓨팅 판단은 당신이 승인했는가?

AI 클라우드 환경에서 조용한 혁명이 진행 중이다. 워크로드를 어디서 실행할지, 어떤 컴퓨팅 자원을 얼마나 할당할지, 언제 컨테이너를 종료하고 다시 시작할지 — 이 모든 판단을 이제 AI가 사람의 개입 없이 내리고 있다. 문제는 그 결정이 틀렸을 때가 아니다. 그 결정이 "누가, 어떤 근거로, 언제 승인했는지" 기록조차 남기지 않는다는 것이다.

컴퓨팅 자원 배분, 이제 AI가 "알아서" 한다

쿠버네티스(Kubernetes)의 워크로드 스케줄러, AWS의 Compute Optimizer, Google Cloud의 Recommender — 이 도구들은 처음에는 "권고안을 제시하는 어시스턴트"로 출발했다. 엔지니어가 제안을 검토하고, 승인하고, 변경 티켓을 끊고, 적용하는 구조였다.

그런데 2025년을 전후로 이 구도가 달라지기 시작했다. 에이전틱 AI(Agentic AI) 기능이 클라우드 플랫폼 깊숙이 통합되면서, 이 도구들은 이제 권고를 넘어 실행까지 담당한다. AWS의 Auto Scaling과 Compute Optimizer가 결합된 환경에서는 AI가 예측 모델을 기반으로 인스턴스 유형을 교체하고, 스팟 인스턴스와 온디맨드 인스턴스 간의 전환을 자율적으로 결정한다. Google Cloud의 Autopilot 모드는 파드(Pod)의 CPU·메모리 요청값을 사람이 설정한 값과 무관하게 런타임에서 재조정한다.

"Autopilot clusters automatically manage the infrastructure of your cluster, including the node configuration, autoscaling, auto-upgrades, baseline security configurations, and baseline networking configuration." — Google Cloud 공식 문서

이 문장에서 핵심은 "automatically manage"다. 자동 관리는 편리하다. 그러나 거버넌스 관점에서는 "누가 이 변경을 승인했는가"라는 질문에 답할 수 없는 구조를 만든다.

변경 티켓 없는 컴퓨팅 결정 — 무엇이 문제인가

전통적인 ITIL(IT Infrastructure Library) 기반 변경 관리 체계는 명확한 전제 위에 설계되어 있다. 모든 인프라 변경에는 변경 요청서(Change Request)가 있고, 명시적 승인자가 있으며, 변경 이유와 롤백 계획이 문서화되어 있다. SOC 2, ISO 27001, GDPR 같은 규제 프레임워크 역시 이 전제를 공유한다.

AI 클라우드의 자율 컴퓨팅 결정은 이 전제를 구조적으로 무너뜨린다.

첫째, 감사 추적(Audit Trail)의 공백. AI가 런타임에서 인스턴스 유형을 교체하거나 컨테이너 자원 한도를 재조정할 때, 이 결정은 대부분 플랫폼 내부 로그에만 남는다. 그것도 "AI가 최적화 결정을 실행했음"이라는 형태로만 기록될 뿐, "어떤 비즈니스 근거로, 어떤 위험 평가를 거쳐, 누가 최종 승인했는지"는 기록되지 않는다.

둘째, 책임 주체의 소멸. 변경이 잘못되어 서비스 장애가 발생했을 때, 감사관이나 법적 분쟁 상황에서 "이 결정을 누가 내렸는가"를 물으면 답이 없다. "AI가 했습니다"는 법적·규제적 맥락에서 책임 주체로 인정되지 않는다.

셋째, 연쇄 결정의 불투명성. 에이전틱 AI는 단일 결정이 아니라 연쇄 결정을 내린다. 컴퓨팅 자원 재배분이 네트워크 정책 변경을 유발하고, 이것이 다시 스토리지 접근 패턴을 바꾸는 식이다. 이 연쇄의 어느 지점에서도 사람의 승인 도장이 찍히지 않는다.

People are looking at a mind map on a laptop screen.

Photo by dlxmedia.hu on Unsplash

실무에서 이미 벌어지고 있는 일들

이것이 이론적 우려에 그치지 않는다는 증거는 실무 현장에서 이미 나타나고 있다.

사례 1: 예측 스케일링의 의도치 않은 비용 폭발 한 국내 이커머스 기업(익명)은 AWS의 예측 기반 Auto Scaling을 활성화한 이후, AI가 과거 트래픽 패턴을 학습해 특정 시간대에 자동으로 대규모 인스턴스를 프로비저닝하기 시작했다. 문제는 이 패턴이 일회성 마케팅 이벤트 데이터를 반영한 것이었고, AI는 이를 반복 패턴으로 오인했다. 결과적으로 불필요한 컴퓨팅 자원이 수주간 유지됐고, 이 결정에 대한 변경 티켓은 존재하지 않았다. 비용 이상을 감지한 것은 청구서가 나온 후였다.

사례 2: 컨테이너 자원 재조정과 SLA 위반 Google Cloud Autopilot 환경에서 AI가 특정 파드의 메모리 한도를 런타임에서 하향 조정한 사례가 보고된 바 있다. 해당 파드는 메모리 집약적 배치 작업을 처리 중이었고, 자원 재조정 이후 OOMKill(메모리 초과 종료)이 발생했다. SLA 위반으로 이어졌지만, 변경 이력에는 "시스템 자동 최적화"라는 기록만 남았다.

이런 사례들은 AI 클라우드가 변경 관리 영역에서 어떻게 거버넌스 공백을 만드는지와 맥을 같이한다. 컴퓨팅 자원 결정은 변경 관리의 가장 핵심적인 영역 중 하나임에도, AI 자동화가 가장 빠르게 침투하고 있는 영역이기도 하다.

AI 클라우드 거버넌스의 구조적 딜레마

여기서 한 가지 불편한 진실을 직면해야 한다. AI 기반 컴퓨팅 자동화를 끄면 경쟁력을 잃는다. 그렇다고 켜두면 거버넌스가 무너진다. 이것이 AI 클라우드가 기업에 던지는 구조적 딜레마다.

NIST의 AI 위험 관리 프레임워크(AI RMF)는 이 문제를 "AI 시스템의 거버넌스 가능성(Governability)"이라는 개념으로 다룬다. AI 시스템이 인간의 감독 하에 운영될 수 있는 구조적 조건을 갖추어야 한다는 원칙인데, 현재 대부분의 클라우드 AI 자동화 도구는 이 조건을 충족하지 못하고 있다는 것이 내 판단이다.

문제의 핵심은 "AI가 결정을 내린다"는 사실 자체가 아니다. AI가 결정을 내릴 때 그 결정이 거버넌스 프레임워크 안에서 추적 가능하고, 설명 가능하며, 필요시 번복 가능한 구조로 설계되어 있느냐는 것이다.

현재 대부분의 AI 클라우드 플랫폼은 이 세 가지 조건 중 하나도 완전히 충족하지 못하고 있다고 보인다.

지금 당장 할 수 있는 것들

이론적 비판만으로는 충분하지 않다. 실무자들이 지금 당장 적용할 수 있는 접근법을 제안한다.

1. AI 자동화의 "실행 권한" 범위를 명시적으로 제한하라

모든 AI 클라우드 도구에는 자동화 수준을 설정하는 옵션이 있다. AWS Compute Optimizer는 "권고만 제공(Recommendation Only)" 모드와 "자동 적용(Auto Apply)" 모드를 구분한다. Google Cloud Autopilot도 특정 자원 범주에 대해 수동 오버라이드를 허용한다.

핵심 프로덕션 워크로드에 대해서는 AI의 권한을 "권고" 수준으로 제한하고, 실행은 반드시 사람이 승인하는 구조를 유지하는 것이 현 시점에서 가장 현실적인 방어선이다.

2. AI 결정 로그를 별도 감사 레이어로 분리하라

플랫폼 내부 로그에만 의존하지 마라. AI가 내린 컴퓨팅 결정(인스턴스 변경, 자원 재조정, 스케일링 이벤트)을 별도의 감사 로그 시스템으로 실시간 수집하고, 각 결정에 대해 "어떤 모델이, 어떤 입력값을 기반으로, 어떤 결정을 내렸는지"를 구조화된 형태로 기록해야 한다.

이것은 AI의 자율성을 제거하는 것이 아니라, AI의 결정을 인간이 이해할 수 있는 언어로 번역하는 작업이다.

3. "AI 변경 클래스"를 기존 변경 관리 체계에 추가하라

ITIL 변경 관리 체계에 새로운 변경 클래스를 추가하는 것을 권장한다. 예를 들어, "표준 변경(Standard Change)", "일반 변경(Normal Change)", "긴급 변경(Emergency Change)"에 더해 "AI 자율 변경(Autonomous AI Change)" 카테고리를 만들고, 이 범주의 변경에 대해서는 사후 검토(Post-Implementation Review) 프로세스를 의무화하는 방식이다.

이렇게 하면 AI의 속도를 유지하면서도 감사 가능성을 확보할 수 있다.

4. 임계값 기반 인간 개입 트리거를 설정하라

모든 AI 결정에 사람이 개입하는 것은 비현실적이다. 대신, 특정 임계값을 초과하는 결정에 대해서는 자동으로 인간 승인 프로세스가 트리거되도록 설계하라. 예를 들어, "인스턴스 유형 변경이 시간당 비용을 20% 이상 증가시키는 경우", "코어 수가 50% 이상 증가하는 경우" 등의 조건을 사전에 정의하고, 이 조건에 해당하는 AI 결정은 반드시 명시적 승인을 거치도록 하는 것이다.

규제 환경이 변하고 있다

이 문제가 단순히 내부 운영 효율의 문제가 아니라는 점을 강조하고 싶다. 규제 환경이 빠르게 변하고 있다.

EU AI Act는 "고위험 AI 시스템"에 대해 인간 감독(Human Oversight) 요건을 명시하고 있으며, 클라우드 인프라 관리에 사용되는 AI 도구가 이 범주에 포함될 가능성이 있다. 국내에서도 금융위원회와 금융감독원이 금융 클라우드 환경에서의 AI 의사결정 투명성에 대한 가이드라인을 강화하는 방향으로 움직이고 있다고 보인다.

감사관이 "이 컴퓨팅 변경을 누가 승인했습니까?"라고 물었을 때, "AI가 알아서 했습니다"라는 답변은 더 이상 통하지 않는 세상이 오고 있다. 그 세상은 생각보다 빨리 올 것이다.

기술은 단순히 기계가 아니라, 인간의 삶을 풍요롭게 하는 도구다. 그러나 도구가 도구를 관리하는 시대에, 우리가 반드시 지켜야 할 것은 결정에 대한 인간의 책임이다. AI 클라우드의 자율 컴퓨팅 결정은 우리에게 편의를 주지만, 동시에 "이 결정의 주인은 누구인가"라는 질문을 던진다. 그 질문에 답할 준비가 되어 있는 조직만이 다음 단계의 AI 클라우드 거버넌스를 선도할 수 있다.

태그: AI 클라우드, 클라우드 거버넌스, 컴퓨팅 자동화, 에이전틱 AI, 감사 추적, 규제 준수, 변경 관리

마치며: 지금 당신의 조직은 어디에 있는가?

이 글을 읽는 독자 중 상당수는 이미 AWS Auto Scaling, Google Cloud의 Recommender, Azure의 Advisor 중 하나 이상을 운영 환경에서 사용하고 있을 것이다. 어쩌면 지금 이 순간에도 AI가 당신의 클라우드 인스턴스 유형을 바꾸고, 코어 수를 조정하고, 예약 인스턴스 구성을 재편하고 있을지 모른다.

문제는 그 사실을 알고 있느냐가 아니다. 그 결정에 대한 책임 구조가 갖춰져 있느냐다.

아래 체크리스트를 한번 살펴보자. 솔직하게 답해보길 권한다.

우리 조직의 AI 기반 컴퓨팅 자동화 도구가 어떤 결정을 자율적으로 내리고 있는지 목록화되어 있는가?
각 AI 결정에 대해 "누가 최종 책임자인지" 명시된 소유권 문서가 존재하는가?
AI가 내린 컴퓨팅 변경 결정이 별도의 감사 로그에 구조화된 형태로 기록되고 있는가?
임계값 초과 시 인간 승인을 트리거하는 정책이 정의되어 있는가?
외부 감사관이 "이 변경을 누가 승인했습니까?"라고 물었을 때 즉시 답변할 수 있는가?

다섯 개 중 세 개 이상에 "아니오"라고 답했다면, 당신의 조직은 지금 거버넌스 공백 위에서 AI 클라우드를 운영하고 있는 셈이다. 그리고 그 공백은 감사 시즌이 오거나, 장애가 발생하거나, 규제 기관이 문을 두드릴 때 비로소 그 크기를 드러낸다.

나는 종종 이 상황을 자동 조종 장치가 달린 비행기에 비유한다. 자동 조종 장치는 훌륭하다. 연료를 아끼고, 더 안정적으로 비행하며, 조종사의 피로를 줄여준다. 그러나 항공 규정은 여전히 이착륙 시 조종사의 수동 개입을 요구하고, 모든 항로 변경은 관제탑과의 교신 기록으로 남는다. 자동 조종 장치가 아무리 뛰어나도, "이 비행의 책임자는 조종사"라는 원칙은 흔들리지 않는다.

AI 클라우드 거버넌스도 마찬가지다. AI의 자율성을 억제하는 것이 목표가 아니다. AI가 아무리 정확한 결정을 내리더라도, 그 결정의 맥락과 근거를 인간이 이해하고 서명할 수 있는 구조를 만드는 것이 목표다.

2026년 현재, 우리는 클라우드 거버넌스의 전환점에 서 있다. AI는 이미 클라우드의 "두뇌" 역할을 맡기 시작했고, 그 속도는 앞으로 더 빨라질 것이다. 이 흐름을 막을 수도 없고, 막아야 할 이유도 없다. 다만, 우리가 지금 해야 할 일은 명확하다.

AI가 결정을 내리는 속도에 맞춰, 인간이 그 결정을 이해하고 책임질 수 있는 구조를 설계하는 것.

그것이 다음 세대의 클라우드 거버넌스가 해결해야 할 핵심 과제다. 그리고 그 과제를 먼저 풀어내는 조직이, AI 클라우드 시대의 진정한 선도자가 될 것이다.

이 글이 도움이 되었다면, 당신의 조직에서 AI 클라우드 거버넌스를 담당하는 동료와 공유해 주세요. 거버넌스의 공백은 혼자 메울 수 없습니다.

태그: AI 클라우드, 클라우드 거버넌스, 컴퓨팅 자동화, 에이전틱 AI, 감사 추적, 규제 준수, 변경 관리, 인간 감독, ITIL, EU AI Act

NOCODE TECH STACKER