AI 클라우드, 이제 "어떤 연산 자원을 누가 쓸지"도 스스로 결정한다 — 그 판단은 당신이 승인했는가?
GPU 우선순위 조정, 워크로드 스로틀링, 연산 자원 재배분. AI cloud 인프라가 이 결정들을 실시간으로 스스로 내리고 있다. 변경 티켓도 없고, 승인자 이름도 없고, 왜 그 결정을 내렸는지 설명하는 기록도 없다. 이것이 단순한 자동화의 편의 문제라면 좋겠지만, 현실은 다르다. 이 구조는 거버넌스 프레임워크가 처음부터 이양을 허락하지 않았던 의사결정 권한을 AI가 조용히 흡수하고 있다는 뜻이다.
무슨 일이 벌어지고 있는가: "추천"에서 "실행"으로의 이동
2026년 현재, 주요 클라우드 벤더들의 AI 기반 자원 관리 도구는 이미 "추천(Recommendation)" 단계를 넘어 "자율 실행(Autonomous Execution)" 단계로 진입했다. AWS의 Compute Optimizer, Google Cloud의 Recommender, Azure의 Advisor 모두 초기에는 "이렇게 바꾸면 어떨까요?"라고 제안하는 도구였다. 그런데 이 도구들은 이제 자동 적용 옵션을 기본값으로 밀고 있다.
더 나아가, NVIDIA의 DGX Cloud나 CoreWeave 같은 GPU 클라우드 플랫폼에서는 AI 스케줄러가 어떤 워크로드가 어떤 GPU 슬롯을 언제 점유할지를 실시간으로 결정한다. 대규모 LLM 학습 클러스터에서 GPU 우선순위 재배분은 수백만 원 단위의 비용 차이를 만들 수 있고, 특정 팀의 작업이 몇 시간씩 지연될 수 있다. 그런데 이 결정이 어떤 근거로 내려졌는지 사람이 확인할 수 있는 로그가 존재하는가?
대부분의 경우, 답은 "아니오"에 가깝다.
"Reasoning Layer"의 문제: 책임이 사라지는 층
이 시리즈에서 내가 반복적으로 짚어온 핵심 구조적 문제가 여기서도 동일하게 등장한다. AI가 의사결정을 내리는 층, 즉 "추론 레이어(Reasoning Layer)"에는 기존 거버넌스 프레임워크가 전제했던 세 가지 요소가 없다.
- 명시적 승인자(Named Approver): 누가 이 결정에 서명했는가?
- 변경 티켓(Change Ticket): 이 결정이 언제, 어떤 프로세스를 거쳐 실행됐는가?
- 설명 가능한 근거 기록(Auditable Rationale): 왜 이 결정이 내려졌는가?
SOC 2 Type II의 CC6.1 통제 항목은 "접근 및 변경에 대한 승인 프로세스"를 요구한다. ISO 27001의 A.12.1.2는 "변경 관리 절차"를 명시한다. PCI DSS 6.5는 변경 통제 프로세스를 의무화한다. 이 규정들이 작성될 당시, 규제 기관은 AI가 연산 자원 배분을 자율적으로 재구성하는 시나리오를 상정하지 않았다. 그 결과, 현재 기업들은 규정을 준수하고 있다고 믿으면서 실제로는 감사 불가능한 결정들이 프로덕션 환경에서 매일 수백 건씩 실행되는 상황에 처해 있다.
실제 사례: GPU 스케줄러가 만든 "보이지 않는 결정들"
구체적인 맥락을 살펴보자. 국내 한 대형 금융 기업이 AI 리스크 모델 학습을 위해 GPU 클라우드를 도입했다고 가정하자. 이 기업은 AI 스케줄러를 통해 여러 팀의 GPU 워크로드를 자동 관리하도록 설정했다. 어느 날 리스크 모델 학습이 예상보다 4시간 지연됐다. 원인을 추적해보니, AI 스케줄러가 다른 팀의 "긴급 추론 요청"에 GPU 우선순위를 자동으로 재배분했기 때문이었다.
이 결정은 누가 내렸는가? AI 스케줄러다. 누가 승인했는가? 아무도 없다. 왜 그 결정이 내려졌는가? 스케줄러의 내부 최적화 로직에 따른 것이지만, 그 로직의 구체적 근거는 외부에서 검증 가능한 형태로 기록되지 않았다.
금융 규제 환경에서 이 시나리오는 단순한 운영 불편이 아니다. 감사 시 "이 결정을 누가 내렸습니까?"라는 질문에 "AI가 알아서 했습니다"라는 답변은 통제 실패(Control Failure)로 분류될 수 있다.
Gartner는 2025년 보고서에서 AI 기반 클라우드 자동화 도구의 확산으로 인해 2027년까지 기업의 45%가 의도치 않은 거버넌스 갭을 경험할 것으로 전망한 바 있다. 이 수치가 정확하든 아니든, 방향성은 명확하다.
AI Cloud가 연산 자원을 재배분할 때 실제로 무슨 일이 일어나는가
AI 기반 연산 자원 관리가 자율 실행 단계에서 내리는 결정들을 분류해보면 다음과 같다.
1. GPU/CPU 우선순위 재조정
멀티테넌트 환경에서 AI 스케줄러는 워크로드의 "긴급도"와 "효율성"을 실시간으로 평가해 자원 배분을 바꾼다. 이 과정에서 특정 팀이나 프로젝트의 작업이 지연되는데, 이 결정에 대한 명시적 승인 체계가 없다.
2. 스로틀링(Throttling) 자동 적용
AI 도구가 특정 워크로드의 자원 소비가 "비정상적"이라고 판단하면 자동으로 스로틀링을 적용한다. 이 판단 기준이 무엇인지, 누가 그 기준을 승인했는지는 대부분 불투명하다.
3. 리스케줄링(Rescheduling) 자율 실행
배치 작업의 실행 시점을 AI가 "최적 비용 시간대"로 자동 재조정한다. SLA(서비스 수준 협약)가 있는 환경에서 이 결정은 계약 위반으로 이어질 수 있지만, 결정 자체는 사람의 검토 없이 실행된다.
4. 라우팅 정책 실시간 변경
멀티클라우드 또는 하이브리드 환경에서 AI가 어떤 워크로드를 어떤 클라우드 리전으로 라우팅할지를 실시간으로 바꾼다. 데이터 레지던시(Data Residency) 규정이 있는 산업에서 이는 즉각적인 컴플라이언스 위반으로 연결될 수 있다.
왜 지금 이 문제가 더 심각해지는가
이 거버넌스 갭이 지금 특히 중요한 이유는 두 가지다.
첫째, AI 클라우드 도구의 자율성이 급격히 높아지고 있다. 2024년까지만 해도 대부분의 AI 자원 관리 도구는 "추천 후 수동 승인" 모델이었다. 2025년을 거치면서 "자동 적용이 기본값"인 도구들이 빠르게 확산됐다. 기업들은 편의성을 이유로 이 설정을 그대로 유지하는 경우가 많다.
둘째, 규제 환경은 이 변화를 따라가지 못하고 있다. 금융, 의료, 공공 분야의 규제 프레임워크는 여전히 "사람이 결정하고 사람이 승인한다"는 전제 위에 서 있다. AI가 이 결정을 대신 내리는 구조에 대한 명확한 규제 지침은 아직 부재하다. 이 공백은 기업이 규정을 준수하고 있다고 믿으면서 실제로는 감사 불가능한 상태에 놓이게 만드는 구조적 함정이다.
이 문제는 단순히 클라우드 운영팀만의 이슈가 아니다. 기업 전반의 거버넌스 구조, 나아가 AI 도입 전략 자체와 연결된다. 삼성·현대차·LG가 동시에 흔들린다 — Korean Labor Unrest가 제조업 성장 엔진에 던지는 경고에서 다룬 것처럼, 대형 조직에서 통제 구조의 균열은 항상 예상보다 빠르게, 예상보다 광범위하게 확산된다.
기업이 지금 당장 해야 할 것: 실질적 체크리스트
이 문제를 인식했다면, 다음 단계는 실행이다. 이론적 거버넌스 문서가 아니라, 지금 당장 현장에서 적용 가능한 체크리스트를 제시한다.
✅ 1. "자동 적용" 설정 전수 감사
현재 사용 중인 모든 AI 클라우드 자원 관리 도구에서 "자동 적용(Auto-apply)" 또는 "자율 실행" 설정이 활성화된 항목을 전수 조사한다. 이 설정이 기본값으로 켜져 있는 경우, 의도적으로 선택한 것인지 확인한다.
✅ 2. 결정 로그 감사 가능성 검증
AI 도구가 내린 결정들이 외부 감사자가 검증 가능한 형태로 기록되고 있는지 확인한다. "AI가 결정했다"는 로그만으로는 SOC 2, ISO 27001 감사에서 충분하지 않다. 결정의 근거, 시점, 영향 범위가 포함돼야 한다.
✅ 3. 고위험 결정 유형에 대한 인간 승인 레이어 복원
GPU 우선순위 재조정, 데이터 라우팅 변경, 스로틀링 정책 변경 등 컴플라이언스 영향이 있는 결정 유형을 분류하고, 이 유형에 대해서는 AI의 추천을 받되 최종 실행은 명시적 인간 승인을 거치도록 프로세스를 재설계한다.
✅ 4. SLA 및 데이터 레지던시 정책과 AI 자동화 범위 매핑
AI 스케줄러나 라우팅 도구의 자동화 범위가 기존 SLA 계약 및 데이터 레지던시 규정과 충돌하지 않는지 명시적으로 매핑한다. 충돌 가능성이 있는 영역은 자동화 범위에서 제외한다.
✅ 5. 거버넌스 정책에 "AI 자율 실행" 항목 명시
기존 변경 관리 정책(Change Management Policy)에 "AI 도구의 자율 실행"을 별도 항목으로 추가한다. 어떤 유형의 AI 자율 결정이 허용되고, 어떤 유형은 인간 승인이 필요한지를 명문화한다.
이 시리즈가 계속 같은 질문으로 돌아오는 이유
배포, 접근 제어, 자가 치유, 옵저버빌리티, 스케일링, 그리고 이번 연산 자원 배분까지. AI cloud가 자율적으로 결정을 내리는 영역은 계속 확장되고 있다. 그리고 매번 같은 구조적 문제가 반복된다. 결정을 내리는 AI가 있고, 그 결정을 승인한 사람은 없고, 왜 그 결정이 내려졌는지 설명하는 기록은 남지 않는다.
이것은 AI 도구의 기술적 결함이 아니다. 이것은 거버넌스 설계의 실패다. AI 도구는 자신이 할 수 있는 일을 한다. 문제는 기업이 "AI가 할 수 있는 일"과 "AI에게 허락해야 하는 일"을 구분하지 않은 채 도구를 도입했다는 것이다.
기술은 단순히 기계가 아니라, 인간의 삶을 풍요롭게 하는 도구다. 그 도구가 풍요 대신 책임의 공백을 만들어낸다면, 문제는 도구가 아니라 도구를 어떻게 설계하고 통제하는가에 있다. AI cloud 시대에 거버넌스의 재설계는 선택이 아니라 의무다.
이 글은 AI 클라우드 거버넌스 시리즈의 일환으로 작성됐습니다. GPU 스케줄링, 연산 자원 배분, 멀티클라우드 라우팅 등 AI 자율 실행이 확산되는 영역에서의 통제 구조 문제를 지속적으로 다룹니다.
다음 편 예고: AI가 "얼마나 쓸지"를 결정할 때
이 시리즈의 다음 주제는 이미 정해져 있다. AI FinOps 도구가 클라우드 비용 최적화를 넘어 예약 인스턴스 재구매, 예산 재배분, 약정 변경을 자율적으로 실행하기 시작했다. "추천"이 "실행"으로 전환되는 그 경계에서, "누가 이 지출을 승인했는가"라는 질문에 대한 답은 점점 더 AI가 되어가고 있다.
지출 결정은 단순한 기술적 자원 배분이 아니다. 재무 통제, 이사회 보고, 외부 감사의 영역이다. 그 결정이 AI의 추론 레이어 안으로 흡수될 때 무슨 일이 벌어지는지 — 다음 편에서 다룬다.
태그: AI 거버넌스, 클라우드 컴퓨팅, GPU 스케줄링, 연산 자원 배분, 컴플라이언스, 엔터프라이즈 보안, 자율 실행, 변경 관리
김테크
국내외 IT 업계를 15년간 취재해온 테크 칼럼니스트. AI, 클라우드, 스타트업 생태계를 깊이 있게 분석합니다.
관련 글
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요!