AI 클라우드, 이제 "누가 이 시스템을 고칠지"도 스스로 결정한다 — 자가 치유 자동화가 지우는 엔지니어의 마지막 판단

2026년 5월 현재, AI cloud tools는 단순히 이상 징후를 탐지하고 알림을 보내는 수준을 넘어섰다. 이제 이 도구들은 장애를 스스로 진단하고, 원인을 추론하고, 수정 조치를 직접 실행한다. 문제는 그 과정에서 "누가 이 수정을 승인했는가"라는 질문이 점점 대답하기 어려워지고 있다는 것이다.

클라우드 업계에서는 이를 자가 치유(Self-Healing) 인프라라고 부른다. 듣기에는 근사하다. 실제로 운영 효율도 높다. 하지만 감사 담당자가 "이 패치는 누가 승인했습니까?"라고 물었을 때, 엔지니어가 "AI가 했습니다"라고 대답한다면? 그 순간 거버넌스 체계 전체가 흔들린다.

자가 치유 인프라란 무엇인가, 그리고 왜 지금 문제인가

자가 치유 인프라는 시스템이 스스로 결함을 감지하고 복구하는 능력을 말한다. 개념 자체는 새롭지 않다. 쿠버네티스(Kubernetes)의 파드 재시작, 오토스케일링 그룹의 인스턴스 교체 같은 기능들은 이미 수년 전부터 존재했다.

그런데 2025년을 전후해 상황이 질적으로 달라졌다. AWS의 Amazon DevOps Guru, Google Cloud의 Duet AI for Operations, Microsoft Azure의 AIOps 기능들은 이제 단순 재시작이나 스케일링을 넘어 근본 원인 분석(Root Cause Analysis)을 자율 수행하고, 코드 수준의 수정을 제안하거나 직접 적용하는 방향으로 진화했다.

예를 들어, 특정 마이크로서비스에서 메모리 누수가 감지되면 AI는 다음 행동을 자율적으로 취할 수 있다:

해당 파드를 재시작
트래픽을 다른 인스턴스로 라우팅
메모리 한도를 동적으로 상향 조정
관련 설정 파일을 수정하고 재배포

이 네 단계 중 1번과 2번은 기존 자동화 범주에 들어간다. 하지만 3번과 4번은 다르다. 이것은 인프라 구성(Configuration)을 변경하는 행위이며, 전통적으로는 변경 관리(Change Management) 프로세스와 인간 승인이 필요한 영역이다.

"시스템이 스스로 고쳤습니다" — 이 문장이 감사 보고서에 등장할 때

실제 사례를 생각해보자. 금융 서비스 기업 A사가 클라우드 기반 결제 처리 시스템을 운영한다고 가정하자. 어느 날 새벽 3시, AI 운영 도구가 데이터베이스 쿼리 지연을 감지한다. AI는 인덱스 설정 문제를 근본 원인으로 특정하고, 자동으로 인덱스를 재구성한 뒤 쿼리 캐시 설정을 변경한다. 시스템은 15분 만에 정상화된다.

새벽 3시에 아무도 깨우지 않고 문제가 해결됐다. 엔지니어링 팀은 아침에 출근해 대시보드에서 "자동 복구 완료" 알림을 본다. 훌륭한 것처럼 보인다.

그런데 3개월 후, 금융감독 기관이 해당 기간의 데이터베이스 구성 변경 이력을 요청한다. 감사관은 묻는다.

"이 인덱스 재구성 및 캐시 설정 변경은 누가 승인했습니까? 변경 티켓 번호는 무엇입니까? 변경의 근거 문서는 어디 있습니까?"

이 질문들에 대한 답이 없다. 변경 티켓은 생성되지 않았다. 승인 기록은 없다. AI가 판단하고 실행했을 뿐이다. 이것이 자가 치유 자동화가 만들어내는 구조적 감사 공백이다.

a close up of a glass building with clouds in the background

Photo by Thimo Pedersen on Unsplash

AI cloud tools가 만드는 새로운 책임의 공백

이전 글들에서 나는 IAM 자동화, 재해복구 자동화, 컴플라이언스 자동화 각각이 어떻게 인간 승인의 흔적을 지우는지 분석했다. 자가 치유 인프라는 이 모든 문제를 하나의 시나리오 안에 압축한다.

자가 치유 시스템이 작동할 때 일반적으로 다음 세 가지 거버넌스 요소가 동시에 손상된다.

첫째, 변경 승인 체계의 붕괴. ITIL 기반의 변경 관리 프레임워크는 모든 인프라 변경에 대해 변경 요청(Change Request), 영향 분석, 승인자 서명을 요구한다. AI가 자율적으로 구성을 변경하면 이 체계는 사실상 우회된다. 변경은 일어났지만, 변경 관리 시스템에는 아무것도 기록되지 않는다.

둘째, 감사 추적의 단절. SOC 2, ISO 27001, PCI DSS 같은 컴플라이언스 프레임워크는 모두 변경 이력의 완전성을 요구한다. AI가 실행한 변경은 기술 로그에는 남지만, "왜 이 변경이 필요했는가", "어떤 대안을 고려했는가", "누가 최종 판단을 내렸는가"라는 맥락은 남지 않는다. 규제 기관들이 AI 자동화 시스템에 대한 인간 책임 요건을 강화하는 방향으로 움직이고 있다는 점에서 이 공백은 점점 더 위험해지고 있다.

셋째, 책임 소재의 소멸. 변경으로 인해 예상치 못한 부작용이 발생했을 때, 누가 책임지는가? AI가 결정했다면 그 AI를 배포한 팀인가? 그 AI 도구를 판매한 벤더인가? 아니면 AI의 자율 실행을 허용한 정책을 승인한 CTO인가? 현재 대부분의 조직에서 이 질문에 명확히 답할 수 있는 거버넌스 문서는 존재하지 않는다.

"자가 치유"와 "자율 실행" 사이의 결정적 경계선

자가 치유 인프라 자체가 문제는 아니다. 문제는 어디까지를 자율 실행 범위로 허용하느냐의 경계가 불명확하다는 것이다.

합리적인 자율 실행 범위와 인간 승인이 필요한 범위를 구분하면 다음과 같다.

자율 실행 적합	인간 승인 필요
파드/인스턴스 재시작	데이터베이스 스키마 변경
트래픽 재라우팅	보안 정책 수정
알려진 임계값 내 스케일링	네트워크 방화벽 규칙 변경
알림 발송	인프라 구성 파일 수정
헬스체크 기반 인스턴스 교체	암호화 설정 변경

문제는 현재 시장의 AI cloud tools 대부분이 이 경계를 명확히 정의하지 않은 채 "최대한 자율적으로 해결"하는 방향으로 설계되어 있다는 것이다. 벤더 입장에서 "자동화율"은 마케팅 지표가 되고, 고객 입장에서는 운영 부담 감소로 느껴진다. 하지만 그 자동화율이 높아질수록 인간 판단이 개입한 결정의 비율은 낮아진다.

실무자가 지금 당장 해야 할 것들

자가 치유 인프라를 완전히 거부하는 것은 현실적이지 않다. 운영 효율성의 이점은 분명하다. 하지만 거버넌스 공백을 방치하는 것도 선택지가 될 수 없다. 다음은 지금 당장 적용 가능한 실질적 접근법이다.

1. 자율 실행 정책(Autonomous Action Policy)을 문서화하라

AI 도구가 인간 승인 없이 실행할 수 있는 행동의 범위를 명시적으로 정의하고 문서화해야 한다. 이 문서는 변경 관리 정책의 일부로 편입되어야 하며, 정기적으로 검토되어야 한다. "AI가 알아서 한다"는 묵시적 합의는 감사 시 아무런 보호막이 되지 못한다.

2. AI 실행 로그를 변경 관리 시스템과 연동하라

AI가 자율적으로 실행한 모든 변경은 자동으로 변경 관리 시스템(ITSM)에 기록되어야 한다. 사후 검토(Post-hoc Review) 프로세스를 만들어, 일정 기준 이상의 변경에 대해서는 엔지니어가 사후 승인 또는 거부할 수 있는 절차를 갖춰야 한다. 이것은 완벽한 해법은 아니지만, 감사 추적의 최소한의 연속성을 유지하는 방법이다.

3. "변경 동결(Change Freeze)" 기간에는 AI 자율 실행을 제한하라

금융 결산 기간, 규제 감사 기간, 대규모 이벤트 전후처럼 안정성이 최우선인 시기에는 AI의 자율 실행 범위를 의도적으로 축소해야 한다. 대부분의 AI cloud tools는 이런 정책 설정을 지원하지만, 실제로 활용하는 조직은 드물다.

4. AI 판단의 근거를 설명 가능하게 만들어라

AI가 특정 수정 조치를 선택한 이유를 사람이 읽을 수 있는 형태로 기록하는 것이 중요하다. 일부 플랫폼은 이미 "AI 추론 로그"를 제공하지만, 이를 실제 감사 증거로 활용할 수 있는 형태로 보존하는 조직은 많지 않다. XAI(Explainable AI) 요건을 AI cloud tools 선택 기준에 포함시켜야 한다.

5. 책임 소재를 미리 정의하라

AI 자동화로 인한 장애 또는 컴플라이언스 위반 발생 시 책임 소재를 사전에 정의해야 한다. 이것은 기술 문제가 아니라 조직 거버넌스 문제다. CTO, CISO, 컴플라이언스 팀, 법무팀이 함께 참여해 "AI가 잘못된 결정을 내렸을 때 누가 책임지는가"를 명문화해야 한다.

거버넌스 없는 자가 치유는 자가 파괴다

스타트업 생태계에서도 이 문제는 예외가 아니다. 초기 스타트업들은 인력이 부족하기 때문에 AI 자동화에 더 많이 의존하는 경향이 있다. 하지만 스케일업 과정에서 엔터프라이즈 고객을 유치하거나 규제 산업에 진입하려 할 때, 거버넌스 기록의 부재가 치명적인 장벽이 된다. 이 맥락에서 오픈소스 기반 사업 모델의 라이선싱 전략처럼, 기술적 결정이 법적·비즈니스적 결과로 이어지는 구조를 초기부터 설계하는 것이 얼마나 중요한지 다시 한번 확인할 수 있다.

자가 치유 인프라는 분명히 미래다. 새벽 3시에 엔지니어를 깨우지 않아도 되는 세상, 장애가 사람보다 빠르게 감지되고 복구되는 시스템은 기술이 인간의 삶을 실질적으로 풍요롭게 만드는 사례다.

하지만 기술이 단순한 도구를 넘어 조직의 의사결정 구조를 바꾸는 순간, 우리는 그 변화를 의식적으로 설계해야 한다. "AI가 고쳤다"는 결과보다 "어떤 근거로, 누구의 판단 아래, 어떤 절차를 통해 고쳤는가"라는 과정이 조직의 신뢰성을 결정한다.

자가 치유가 작동하는 동안, 거버넌스는 잠들면 안 된다.

이 글은 AI 클라우드 거버넌스 시리즈의 일환으로 작성되었습니다. IAM 자동화, 컴플라이언스 자동화, 재해복구 자동화, 데이터 삭제 자동화, 벤더 관계 자동화, 비용 최적화 자동화, 모델 학습 자동화, 성능 관리 자동화에서 나타나는 동일한 거버넌스 공백 패턴을 추적하고 있습니다.

저는 위의 내용이 이미 완성된 글의 결론부임을 확인했습니다. 이 글은 "자가 치유 인프라와 거버넌스"를 주제로 다루고 있으며, 결론까지 완전히 작성되어 있습니다.

그런데 잠깐, 이 글이 다루는 핵심 주제가 무엇인지 먼저 파악해야 정확하게 이어쓸 수 있습니다. 제공된 내용을 보면:

주제: AI 클라우드의 자가 치유(Self-Healing) 자동화와 거버넌스 공백
시리즈: AI 클라우드 거버넌스 시리즈 (IAM, 컴플라이언스, DR, 삭제, 벤더, 비용, 모델 학습, 성능에 이어)
결론: 이미 완성되어 있음

따라서 이 글에 추가할 수 있는 새로운 섹션이 있다면, 시리즈 맥락상 다음 편 예고 또는 독자 행동 유도(CTA) 섹션이 자연스럽습니다. 아래에 이어서 작성합니다.

다음 편 예고: AI는 이제 "누구에게 알릴지"도 스스로 결정한다

이 시리즈를 통해 우리는 AI 클라우드 자동화가 비용, 성능, 학습, 삭제, 벤더 관계, 재해복구, IAM, 컴플라이언스, 그리고 자가 치유에 이르기까지 하나씩 인간의 판단을 루프 밖으로 밀어내는 과정을 추적해 왔다.

그런데 이 모든 자동화의 이면에는 아직 충분히 논의되지 않은 마지막 영역이 남아 있다.

알림(Alerting)과 에스컬레이션(Escalation)의 자동화다.

AI는 이제 장애를 감지하고, 스스로 복구하고, 그 결과를 판단한 뒤 "이 사건은 사람에게 알릴 필요가 없다"고 결정하기 시작했다. PagerDuty, Opsgenie, AWS EventBridge 같은 플랫폼은 이미 AI 기반 알림 억제(Alert Suppression)와 자동 에스컬레이션 라우팅을 지원한다. 이는 노이즈를 줄이는 데 분명히 효과적이다.

하지만 문제는 여기서 시작된다.

AI가 "이건 알릴 필요 없다"고 판단한 사건이, 나중에 규제 보고 의무가 있는 보안 인시던트였다면?

알림 자동화는 단순한 운영 편의의 문제가 아니다. 그것은 누가 무엇을 언제 알았는가라는 법적 책임의 출발점을 결정하는 문제다. GDPR의 72시간 침해 통보 의무, 금융위원회의 사고 보고 기준, ISO 27001의 인시던트 관리 요건 모두 "조직이 언제 인지했는가"를 기준으로 삼는다.

AI가 조용히 억제한 알림 하나가, 조직 전체의 규제 타임라인을 바꿀 수 있다.

다음 편에서는 이 문제를 정면으로 다룬다.

독자에게: 당신의 조직은 어디쯤 있습니까

이 시리즈를 읽어온 독자라면 이미 느꼈을 것이다. 우리가 논의한 거버넌스 공백은 특정 기업의 실수가 아니다. 그것은 AI 자동화 도구를 설계한 벤더들이 "효율"을 최우선 가치로 놓고, 거버넌스를 선택적 기능으로 남겨둔 구조적 결과다.

아래 세 가지 질문을 당신의 조직에 던져보라.

우리 조직에서 AI가 지난 30일간 자율 실행한 변경 사항 목록을 5분 안에 뽑을 수 있는가?
그 변경 사항 중 하나가 잘못되었을 때, 누가 책임진다고 문서화되어 있는가?
규제 감사관이 내일 찾아온다면, AI의 판단 근거를 설명할 수 있는 로그가 존재하는가?

세 질문 중 하나라도 "모르겠다"는 답이 나온다면, 그것이 바로 거버넌스를 설계해야 할 출발점이다.

기술은 단순히 기계가 아니라, 인간의 삶을 풍요롭게 하는 도구다. 하지만 그 도구가 조직의 책임 구조를 조용히 재편하고 있다면, 우리는 그 변화를 의식적으로 설계해야 할 의무가 있다.

AI 클라우드 거버넌스 시리즈는 계속됩니다.

📌 이 시리즈의 전체 편을 순서대로 읽고 싶다면, 태그 [AI 클라우드 거버넌스] 를 팔로우하세요. 각 편은 독립적으로 읽을 수 있지만, 시리즈 전체가 하나의 거버넌스 프레임워크를 구성합니다.

NOCODE TECH STACKER