AI 클라우드, 이제 "비용을 얼마나 쓸지"도 스스로 결정한다 — 그 판단은 당신이 승인했는가?

클라우드AI가 인프라의 거의 모든 영역을 자율적으로 관장하기 시작한 지금, 한 가지 영역이 유독 조용히, 그리고 빠르게 인간의 손을 떠나고 있다. 바로 클라우드 비용 관리(FinOps)다. 스케일링, 네트워킹, 설정 관리, 연산 자원 배분에 이어, 이제 AI는 "얼마를 어디에 쓸지"까지 스스로 결정하고 있다. 그리고 대부분의 기업은 그 사실을 인지하지 못한 채 서명란을 비워두고 있다.

AI가 클라우드 지갑을 열기 시작했다

기업 클라우드 환경에서 비용 최적화는 오랫동안 '사람의 판단'이 개입하는 영역이었다. 엔지니어가 리소스 사용 패턴을 분석하고, 재무팀이 예산 한도를 설정하며, 아키텍트가 Reserved Instance와 Spot Instance 비율을 조율하는 구조였다. 변경에는 티켓이 필요했고, 승인자가 있었으며, 감사 로그가 남았다.

그런데 2024년을 전후로 AWS Cost Anomaly Detection, Google Cloud의 Active Assist, Azure Advisor의 자동 적용(Auto-Apply) 기능이 단순한 '추천'을 넘어 자율 실행 단계로 진입했다. 이 도구들은 이제 비용 이상을 감지하면 알림을 보내는 데 그치지 않고, 직접 예산 한도를 조정하거나, 미사용 리소스를 종료하거나, 워크로드를 더 저렴한 인스턴스 유형으로 마이그레이션한다.

문제는 이 모든 행위가 변경 티켓 없이, 명시적 승인자 없이, 설명 가능한 감사 근거 없이 이루어진다는 점이다.

"최적화"라는 이름 뒤에 숨은 거버넌스 공백

클라우드AI 기반 FinOps 도구가 자율적으로 실행하는 행위들을 구체적으로 살펴보면 그 범위가 생각보다 훨씬 넓다.

자동 종료(Auto-Termination)

Spot Instance 또는 미사용으로 판단된 리소스를 AI가 자동으로 종료한다. AWS의 경우 Instance Scheduler와 Cost Optimization Hub가 연계되어 "유휴 상태"로 분류된 EC2 인스턴스를 자동으로 중지하거나 종료할 수 있다. 그런데 "유휴 상태"의 기준은 AI 모델이 정한 임계값이다. 이 임계값이 어떻게 설정되었는지, 누가 승인했는지는 대부분의 기업 문서에 남아 있지 않다.

예산 한도 자동 조정

일부 FinOps 플랫폼(Apptio Cloudability, CloudHealth 등)은 과거 소비 패턴을 학습해 예산 한도를 동적으로 재설정한다. 분기 말 캠페인이나 갑작스러운 트래픽 급증 시 AI가 예산 상한을 올리거나, 반대로 예산 초과가 감지되면 특정 서비스의 리소스 할당을 자동으로 줄인다. 이 결정이 비즈니스 연속성에 미치는 영향은 직접적이다.

구매 옵션 자동 전환

Reserved Instance에서 Savings Plans으로, 혹은 On-Demand에서 Spot으로의 전환을 AI가 자율적으로 실행하는 경우도 늘고 있다. 이는 단순한 운영 결정이 아니라 재무적 약정(commitment)을 수반하는 행위다. 1년 또는 3년 약정의 Reserved Instance를 AI가 자동으로 구매했다면, 그 계약의 법적·재무적 책임은 누구에게 있는가?

컴플라이언스 프레임워크는 이 상황을 어떻게 보는가

SOC 2, ISO 27001, PCI DSS는 공통적으로 변경 관리(Change Management) 통제를 요구한다. 핵심은 세 가지다.

명시적 승인자(Named Approver): 변경을 실행하기 전 권한 있는 인간이 승인해야 한다.
변경 이력(Audit Trail): 무엇이, 언제, 왜 변경되었는지 기록되어야 한다.
직무 분리(Segregation of Duties): 변경을 요청한 주체와 승인한 주체가 달라야 한다.

AI 기반 FinOps 도구의 자율 실행은 이 세 가지를 동시에 무력화한다. AI는 승인자가 아니다. AI의 로그는 "시스템이 실행했음"을 기록하지만, "왜 그 판단을 내렸는가"에 대한 설명 가능한 근거를 제공하지 않는다. 그리고 변경을 요청하고 실행한 주체가 동일한 AI 시스템이라면 직무 분리 원칙은 사실상 존재하지 않는다.

중학교 2학년이 만든 AI 안구치료 도구 — 이것이 왜 의료 AI의 진짜 신호인가를 보면 AI의 자율 판단이 얼마나 넓은 영역으로 확장되고 있는지 실감할 수 있다. 의료 영역에서도, 클라우드 인프라 영역에서도, AI의 자율 실행이 가져오는 거버넌스 공백은 동일한 구조적 문제를 공유한다.

실제로 어떤 일이 벌어지고 있는가

익명을 요청한 한 국내 핀테크 기업의 클라우드 아키텍트는 이런 경험을 전했다. 야간에 AI 비용 최적화 도구가 "유휴 상태"로 판단한 데이터베이스 읽기 복제본(Read Replica) 3개를 자동으로 종료했다. 실제로는 배치 분석 작업이 새벽 2시에 해당 복제본을 사용하도록 설계된 아키텍처였다. 다음 날 아침 분석 파이프라인 전체가 멈춰 있었고, 원인 파악에만 4시간이 걸렸다. AI가 남긴 로그에는 "비용 최적화를 위해 유휴 리소스 종료"라는 한 줄만 있었다.

이것이 단순한 운영 실수처럼 보일 수 있다. 하지만 규제 환경에서 이 사건을 바라보면 이야기가 달라진다. 변경 티켓이 없었다. 승인자가 없었다. 사전 영향 평가가 없었다. 감사인이 이 로그를 본다면, 이 기업의 변경 관리 통제가 작동하고 있다고 판단할 수 있을까?

의왕화재가 드러낸 아파트 안전의 민낯 — 우리가 지불하는 '보이지 않는 비용'에서 다룬 것처럼, 시스템이 정상적으로 작동하는 것처럼 보일 때 우리는 구조적 취약점을 인식하지 못한다. 클라우드 비용 거버넌스의 공백도 마찬가지다. 비용이 줄어드는 동안은 아무도 문제를 제기하지 않는다.

클라우드AI FinOps의 자율화가 특히 위험한 세 가지 이유

1. 재무적 약정의 비가역성

네트워크 라우팅 정책이나 설정값 변경은 롤백이 가능하다. 하지만 AI가 자동으로 체결한 1년짜리 Reserved Instance 약정은 취소가 어렵거나 위약금을 수반한다. AI의 자율 실행이 법적 계약으로 이어지는 영역에서, "AI가 했다"는 설명은 면책 사유가 되지 않는다. 계약의 법적 책임은 전적으로 기업이 진다.

2. 비용 최적화와 가용성의 트레이드오프

AI는 비용 절감이라는 단일 목표 함수를 최적화하도록 설계된다. 하지만 클라우드 아키텍처에서 비용과 가용성은 종종 역관계다. 여분의 복제본, 예비 인스턴스, 다중 AZ 배포는 모두 비용이 든다. AI가 이것들을 "비효율"로 분류해 제거하면, 단기적으로 비용은 줄지만 장애 복원력은 약해진다. 이 트레이드오프를 판단할 권한이 AI에게 있는가?

3. 감사 증거의 오염

이 시리즈에서 반복적으로 강조해온 핵심 문제가 여기서도 반복된다. AI가 실행한 변경의 로그는 "무엇이 변경되었는가"는 기록하지만, "왜 그 판단이 합리적이었는가"를 설명하지 못한다. 감사인이 요구하는 것은 후자다. 변경의 비즈니스 정당성, 위험 평가, 승인 근거가 없는 로그는 컴플라이언스 감사에서 증거로 기능하지 못한다.

Gartner는 2025년까지 클라우드 지출의 30% 이상이 낭비될 것으로 전망했으며, 이를 해결하기 위한 AI 기반 FinOps 도구 시장이 급성장하고 있다. 하지만 "비용 낭비를 줄인다"는 목표가 "거버넌스 없이 자율 실행"을 정당화하지는 않는다.

a blue and white logo

Photo by Growtika on Unsplash

지금 당장 적용할 수 있는 거버넌스 체크리스트

이 문제를 인식했다면, 다음 질문들을 조직 내에서 즉시 검토해볼 것을 권한다.

① 현재 사용 중인 FinOps 도구의 자율 실행 범위를 파악하라

AWS Cost Optimization Hub, Azure Advisor, Google Active Assist 각각의 설정에서 "자동 적용(Auto-Apply)" 또는 "자동 실행(Automated Action)"이 활성화된 항목을 전수 조사하라. 추천 기능과 자동 실행 기능은 UI에서 종종 같은 화면에 나란히 있어 구분이 어렵다.

② 자율 실행 행위에 대한 변경 티켓 연동을 구성하라

자율 실행이 발생할 때 ServiceNow, Jira 등의 ITSM 도구에 자동으로 변경 레코드가 생성되도록 웹훅 또는 API 연동을 구성하라. 사후 기록이라도 없는 것보다 낫다. 단, 이것이 사전 승인을 대체하지 않는다는 점은 명심해야 한다.

③ 재무적 약정을 수반하는 행위는 반드시 인간 승인 게이트를 유지하라

Reserved Instance 구매, Savings Plans 약정, 장기 계약 관련 자동화는 예외 없이 명시적 인간 승인 단계를 보존하라. 이 범주는 어떤 경우에도 AI의 자율 실행 대상이 되어서는 안 된다.

④ "유휴 리소스" 판단 기준을 문서화하고 검토하라

AI가 "유휴" 또는 "미사용"으로 분류하는 임계값이 무엇인지 확인하고, 이것이 실제 아키텍처의 의도와 일치하는지 검토하라. 특히 배치 작업, 야간 프로세스, DR(재해복구) 용도의 리소스는 명시적으로 예외 처리하라.

⑤ 분기별 FinOps 거버넌스 리뷰를 도입하라

AI가 지난 분기 동안 자율적으로 실행한 모든 행위의 목록을 생성하고, 이 중 변경 티켓이 없는 항목을 식별하라. 이 리뷰 자체가 감사인에게 "우리는 AI의 자율 실행을 인식하고 관리하고 있다"는 증거가 된다.

기술이 결정을 내리는 시대, 책임은 여전히 인간에게 있다

이 시리즈를 통해 반복적으로 다뤄온 핵심 명제가 있다. AI는 도구다. 아무리 정교한 도구라 해도, 그 도구가 내린 결정의 결과에 대한 책임은 도구를 선택하고 배포한 조직이 진다.

클라우드AI 기반 FinOps 도구가 비용을 줄여준다는 것은 사실일 가능성이 높다. 그 효과는 측정 가능하고, 대시보드에 숫자로 표시된다. 하지만 그 과정에서 조용히 사라진 거버넌스 통제의 비용은 숫자로 표시되지 않는다. 그것은 다음 번 컴플라이언스 감사에서, 혹은 AI가 잘못된 판단을 내린 다음 날 아침에 청구서가 날아온다.

기술은 단순히 기계가 아니라, 인간의 삶을 풍요롭게 하는 도구다. 그리고 좋은 도구는 사용자가 통제권을 유지할 수 있도록 설계된다. 클라우드AI에게 지갑을 맡기기 전에, 그 도구가 당신의 통제 아래 있는지 먼저 확인해야 한다. 비용 최적화와 거버넌스는 양자택일의 문제가 아니다. 둘 다 가질 수 있어야 한다. 그리고 그것을 요구하는 것은 기술적 보수주의가 아니라, 조직의 기본적인 책임이다.

태그: 클라우드AI, FinOps, 클라우드 거버넌스, 비용 최적화, 자율 실행, 컴플라이언스, 감사 가능성

저는 위 글이 이미 완성된 것으로 보입니다. 결론부("기술이 결정을 내리는 시대, 책임은 여전히 인간에게 있다")까지 포함되어 있고, 태그도 붙어 있습니다.

혹시 이 글 앞부분(도입부, 본론)이 빠져 있어서 전체 글을 완성하고 싶으신 건가요? 아니면 이 글과 연결되는 다음 편을 새로 작성해 드릴까요?

어떤 방향을 원하시는지 알려주시면 바로 작성해 드리겠습니다.

NOCODE TECH STACKER