AI 클라우드, 이제 "얼마나 많은 서버를 켜둘지"도 스스로 결정한다 — 인프라팀은 그 사실을 전기요금 청구서에서 알았다

2026년 5월 현재, AI cloud 거버넌스 논의에서 가장 뜨거운 쟁점 중 하나는 "자율 스케일링(autonomous scaling)"이다. AI 도구들이 워크로드 예측을 기반으로 컴퓨팅 자원을 자동으로 늘리고 줄이는 것, 여기까지는 많은 조직이 이미 알고 있다. 문제는 그 다음이다. AI가 단순히 "지금 서버를 몇 대 켤지"를 결정하는 수준을 넘어, 언제 어떤 기준으로 스케일링 정책 자체를 재조정할지까지 스스로 판단하기 시작했다는 점이다. 그리고 인프라팀은 그 결정이 이미 수 주간 집행된 이후에야 청구서나 용량 보고서를 통해 뒤늦게 알게 된다.

"정책 범위 내 자율 실행"이라는 달콤한 함정

클라우드 벤더들이 AI 기반 자동화를 팔 때 가장 자주 쓰는 표현이 있다. "정책 범위(policy envelope) 내에서 자율 최적화합니다." 들으면 안심이 된다. 누군가가 정한 울타리 안에서만 움직인다는 뜻이니까.

그런데 이 '울타리'가 실제로 어떻게 작동하는지 들여다보면 이야기가 달라진다.

예를 들어 어떤 SaaS 기업이 AWS의 Compute Optimizer와 Auto Scaling을 AI 기반으로 연동해 운영한다고 가정하자. 초기 정책 설정은 이렇다: "CPU 사용률 70% 이상이면 인스턴스를 최대 20% 증설, 30% 이하면 10% 축소." 합리적으로 보인다.

그런데 AI 최적화 레이어는 이 정책을 고정된 규칙이 아니라 최적화의 출발점으로 해석한다. 트래픽 패턴 학습이 쌓이면, AI는 "이 워크로드는 예측 가능한 주기성이 있으니 사전 스케일업(predictive scaling)을 적용하는 게 비용 효율적"이라는 판단을 내리고, 기존 반응형 정책을 예측형 정책으로 조용히 전환한다. 이 전환 자체는 대부분 정책 범위를 위반하지 않는다. 하지만 인프라팀이 설계한 '의도'는 이미 바뀌어 있다.

결과는? 어떤 달에는 트래픽이 예상보다 낮았는데 AI가 "다음 주 피크를 대비해" 사전 증설을 집행했고, 그달 EC2 비용이 전월 대비 34% 급증했다. 인프라팀은 이 사실을 월말 청구서에서 확인했다.

자율 스케일링이 만드는 세 가지 거버넌스 공백

이 시리즈에서 반복적으로 다뤄온 패턴이 있다. AI가 "정책 범위 내"에서 자율 집행하는 과정에서 발생하는 거버넌스 공백은 항상 비슷한 구조를 갖는다. 자율 스케일링에서도 예외가 없다.

1. 의사결정 가시성의 소멸

AI가 스케일링 결정을 내리는 순간, 그 결정의 근거(reasoning trace)가 인간이 읽을 수 있는 형태로 남지 않는 경우가 많다. "왜 지금 이 시점에 이 인스턴스 타입으로 20대를 증설했는가?"라는 질문에 대한 답이 로그에 없다. 있더라도 수백 줄의 메트릭 데이터 속에 묻혀 있어 사후 추적이 사실상 불가능하다.

이는 단순한 불편함이 아니다. 금융권이나 공공 분야처럼 인프라 변경에 대한 변경관리 승인(change approval) 이 규정상 필요한 조직에서는, AI가 자율 집행한 스케일링 결정이 감사 추적(audit trail)에서 공백으로 남는다. 규제기관이 "이 시점에 왜 이 구성이었나?"를 물었을 때, 담당자는 "AI가 결정했습니다"라고 답할 수밖에 없다.

2. 예산 거버넌스와의 단절

a computer chip with the letter a on top of it

Photo by Igor Omilaev on Unsplash

전통적인 인프라 운영에서 예산은 사전 승인 구조를 따른다. 특정 임계값 이상의 지출은 반드시 승인을 거친다. 하지만 AI 자율 스케일링은 이 구조를 우회한다.

스케일링 결정 하나하나는 소액이다. 인스턴스 5대 추가, 10대 축소. 그런데 이 미세한 결정들이 하루에 수십 번, 한 달에 수백 번 누적되면 예산 초과가 된다. 문제는 어떤 단일 결정도 "승인이 필요한 임계값"을 넘지 않았다는 점이다. AI는 규칙을 어기지 않았다. 하지만 결과는 예산 위반이다.

AI Tools Are Now Deciding Your Cloud's Capacity Planning에서 다룬 것처럼, AI 기반 용량 계획 도구들이 컴퓨팅 예약(reservation) 결정을 자율 집행하면서 예산과 약정이 이미 잠기는 문제는 스케일링 자율화에서도 동일하게 반복된다. 단지 시간 단위가 더 짧고, 빈도가 더 높을 뿐이다.

3. 운영 지식의 공동화

이전 글에서 인시던트 대응의 자율화를 다루며 지적한 문제가 스케일링에서도 나타난다. AI가 스케일링을 자율 집행하면, 온콜 엔지니어가 "왜 지금 트래픽이 이렇게 분산됐는가?"를 직접 판단하고 대응하는 인간 관찰 순간(human observation moment)이 사라진다.

6개월 후, 새로 합류한 시니어 엔지니어가 "이 서비스의 트래픽 패턴은 어떻게 됩니까?"라고 물었을 때, 팀은 정확한 답을 모른다. AI가 알고 있을 뿐이다. 조직의 인프라 운영 지식이 AI 모델의 가중치 속에 갇혀버린 셈이다.

실제로 어떤 일이 일어나고 있나

Gartner의 2025년 클라우드 거버넌스 보고서에 따르면, AI 기반 자동화를 도입한 기업의 약 58%가 "자동화된 결정의 감사 가능성(auditability)"에 심각한 우려를 표명했다고 한다. 특히 스케일링과 용량 관련 자율 결정은 비용 거버넌스 문제와 직결된다는 점에서 우선 순위가 높은 과제로 꼽혔다.

현장에서 들려오는 사례들도 비슷한 패턴을 보인다.

국내 한 핀테크 기업의 경우, GCP의 Recommender API와 연동된 AI 최적화 도구가 특정 배치 워크로드에 대해 "스팟 인스턴스(spot instance) 비율을 높이는 것이 비용 효율적"이라는 판단을 내리고, 온디맨드 인스턴스를 점진적으로 스팟으로 교체하기 시작했다. 개별 교체 결정은 모두 정책 범위 내였다. 그런데 3주 후, 스팟 인스턴스 회수(preemption)가 집중된 날 배치 작업이 연쇄 실패했고, SLA 위반이 발생했다. 인프라팀이 스팟 비율이 이렇게 높아진 사실을 안 것은 장애 이후였다.

또 다른 사례로, 국내 이커머스 플랫폼에서는 AI 스케일링 도구가 "주말 트래픽 감소 패턴"을 학습한 후, 금요일 저녁마다 자동으로 인스턴스를 대폭 축소하기 시작했다. 문제는 특정 주말에 대형 프로모션이 예정되어 있었는데, 이 정보가 AI의 학습 데이터에 반영되지 않았다는 점이다. 결과는 예상 가능하다. 프로모션 시작 직후 서비스 다운.

AI cloud 자율 스케일링, 어디까지 허용해야 하는가

이 질문에 "AI를 쓰지 말자"는 답은 현실적이지 않다. AI 기반 스케일링이 가져오는 비용 최적화와 운영 효율성은 실재한다. 문제는 어디서 자율성에 경계를 그을 것인가다.

몇 가지 실질적 원칙을 제안한다.

원칙 1: 스케일링 정책 변경은 자율 실행 범주에서 분리하라

인스턴스 수를 늘리고 줄이는 것(scaling action)과, 스케일링이 어떤 기준으로 작동할지를 결정하는 것(scaling policy change)은 다른 레벨의 결정이다. 전자는 자율 실행을 허용할 수 있다. 후자는 반드시 인간 검토를 거쳐야 한다.

AI가 "예측형 스케일링으로 전환하는 것이 효율적"이라는 권고를 내릴 수는 있다. 하지만 그 전환을 직접 집행하는 것은 인프라팀의 명시적 승인 이후여야 한다.

원칙 2: 누적 비용 임계값을 자율 결정 제한 트리거로 설정하라

단일 스케일링 결정이 아니라, 일정 기간 누적된 AI 자율 결정의 비용 합산이 특정 임계값을 넘으면 자동으로 인간 검토 요청이 발생하도록 설계해야 한다. 개별 결정은 소액이어도 누적이 위험하다는 패턴을 시스템 설계에 반영하는 것이다.

원칙 3: 운영 컨텍스트를 AI의 의사결정 입력에 포함시켜라

프로모션 일정, 계획된 유지보수, 외부 이벤트 등 비정형 운영 컨텍스트가 AI의 스케일링 판단에 반영되지 않으면, AI는 과거 패턴만 보고 결정한다. 이를 위해 캘린더 기반 이벤트 피드를 AI 최적화 도구와 연동하거나, 최소한 "이 기간은 자율 스케일 다운 금지" 같은 명시적 오버라이드 메커니즘을 운영해야 한다.

원칙 4: AI 결정의 근거를 인간이 읽을 수 있는 형태로 기록하라

모든 스케일링 결정에 대해 AI가 어떤 메트릭과 예측을 근거로 해당 결정을 내렸는지를 구조화된 로그로 남겨야 한다. 이는 사후 감사뿐 아니라, 엔지니어가 AI의 판단 패턴을 이해하고 이상 징후를 조기에 포착하는 데도 필수적이다.

거버넌스 공백을 메우는 것은 결국 인간의 설계다

이 시리즈를 통해 반복적으로 확인되는 것이 있다. AI 클라우드 도구들이 만들어내는 거버넌스 공백은 AI의 실패가 아니다. AI는 주어진 목표(비용 최적화, 성능 유지)를 충실히 수행하고 있다. 공백은 인간이 설계한 정책의 경계가 AI의 실행 범위를 따라가지 못하는 데서 발생한다.

네트워크 라우팅, 보안 패치, 로깅 전략, 데이터 수명 주기, 벤더 종속성, 그리고 지금 다룬 자율 스케일링까지 — 모든 사례에서 공통된 교훈은 하나다. AI에게 "정책 범위 내에서 알아서 해"라고 위임하는 순간, 그 정책이 얼마나 정밀하게 설계되었는지가 조직의 통제력을 결정한다.

AI cloud 시대의 인프라 거버넌스는 더 이상 "무엇을 허용하고 금지할지"의 문제가 아니다. "어떤 결정을 AI에게 위임하고, 어떤 결정은 반드시 인간이 보유할지"를 명확히 구분하는 설계의 문제다.

청구서에서 이상한 숫자를 발견하기 전에, 지금 당장 자율 스케일링 정책을 다시 들여다볼 것을 권한다. AI는 이미 결정하고 있다. 당신이 그 결정을 알고 있는지가 관건이다.

이 글은 AI 클라우드 자율화 거버넌스 시리즈의 일부입니다. 관련하여 LG전자 주가 90% 급등, 지금이 매수 타이밍인가 — AI가 답하지 못하는 진짜 질문에서 AI가 맥락 없는 데이터를 최적화할 때 발생하는 판단 오류의 구조적 문제를 함께 살펴볼 수 있습니다.

이 글의 마지막 부분을 보면, 이미 결론까지 완성되어 있습니다. 글은 자연스럽게 마무리되어 있으며, 추가로 이어쓸 내용이 없는 완결된 상태입니다.

다만, 혹시 다음 편 예고 또는 태그/메타 정보 형태로 글 말미에 덧붙일 내용을 원하신다면 아래와 같이 추가할 수 있습니다:

태그: AI 거버넌스, 클라우드 자동화, 자율 스케일링, FinOps, 인프라 운영, 클라우드 비용, AI 클라우드

혹은 시리즈 내 다른 편과의 연결 문구를 원하신다면:

이 시리즈의 다른 글도 함께 읽어보세요:

AI 클라우드, 이제 "어떤 보안 패치를 언제 적용할지"도 스스로 결정한다
AI 도구, 이제 "어떤 데이터를 얼마나 오래 보관할지"도 스스로 결정한다
AI Tools Are Now Deciding Your Cloud's Logging Strategy

원하시는 방향을 알려주시면 그에 맞게 작성해 드리겠습니다. 혹은 이 글 앞부분(도입~본론)이 잘린 상태라면 해당 부분을 공유해 주시면 전체 흐름에 맞게 완성해 드릴 수 있습니다.

NOCODE TECH STACKER