AI 클라우드, 이제 "누가 데이터를 보관할지"도 스스로 결정한다 — 그 판단은 당신이 승인했는가?

AI 클라우드 인프라가 조용히 경계를 넘고 있다. 무엇을 실행할지, 어떻게 연결할지, 얼마를 쓸지를 이미 AI가 결정하는 시대가 됐다는 것은 이 시리즈를 통해 반복적으로 짚어왔다. 그런데 이번에 주목해야 할 영역은 조금 더 근본적인 곳에 있다. 바로 데이터 보존(Data Retention)과 수명 주기 관리(Lifecycle Management) — 즉, "어떤 데이터를 얼마나 오래 보관하고, 언제 삭제하며, 어디에 이동시킬지"를 AI가 자율적으로 판단하기 시작했다는 사실이다.

이것이 왜 지금 중요한가? 데이터 보존 결정은 단순한 스토리지 비용 문제가 아니다. GDPR, 개인정보보호법, 금융감독 규정, 의료정보법 등 수많은 규제 프레임워크가 "특정 데이터를 언제까지 보관해야 하는가, 혹은 반드시 삭제해야 하는가"를 명시적으로 요구한다. 그 결정을 AI가 승인 없이 내리고 있다면, 우리는 규제 위반을 자동화하고 있는 것일 수 있다.

AI 클라우드가 데이터 수명 주기를 '조용히' 재편하는 방식

AWS S3 Intelligent-Tiering, Google Cloud의 Autoclass, Azure Blob Storage의 Lifecycle Management 정책 엔진은 모두 비슷한 구조를 공유한다. 접근 빈도, 데이터 크기, 비용 효율성을 기반으로 스토리지 계층을 자동 이동시키고, 일정 조건이 충족되면 데이터를 아카이브하거나 삭제한다.

초기에는 이 기능들이 단순한 규칙 기반(rule-based) 자동화였다. 관리자가 "30일 이후 접근 없으면 Glacier로 이동", "1년 후 삭제"라는 정책을 명시적으로 설정했고, 그 정책은 변경 티켓과 승인 프로세스를 거쳤다.

그런데 2024년 이후 상황이 달라졌다. 클라우드 플랫폼들은 ML 기반 예측 모델을 수명 주기 엔진에 통합하기 시작했다. 이제 시스템은 단순히 설정된 규칙을 실행하는 것이 아니라, 미래의 접근 패턴을 예측하고 그에 맞게 보존 정책을 동적으로 조정한다. 더 나아가, 에이전틱 AI 도구들은 여러 스토리지 버킷에 걸쳐 데이터 중복을 감지하고, "불필요한" 데이터를 자율적으로 통합하거나 삭제 대상으로 분류한다.

문제는 이 과정에서 "누가 이 데이터를 삭제하기로 결정했는가?"라는 질문에 답할 수 있는 감사 추적(audit trail)이 사실상 존재하지 않는다는 점이다.

"삭제된 증거"의 법적 무게

2025년 초, 유럽의 한 핀테크 기업이 규제 기관의 감사에서 예상치 못한 상황에 직면했다는 보고가 업계에서 회자됐다. 감사관이 특정 기간의 거래 로그를 요청했을 때, 해당 데이터가 클라우드 플랫폼의 자동화된 수명 주기 정책에 의해 이미 삭제된 상태였다. 기업 측은 "자동화 시스템이 한 일"이라고 해명했지만, 규제 기관의 입장은 단호했다.

"데이터 보존 의무는 시스템 자동화 여부와 무관하게 기업 책임이다."

이것이 핵심이다. GDPR 제5조는 데이터를 "필요한 기간 이상 보관하지 않아야 한다"고 명시하지만, 동시에 금융 규제(MiFID II, 국내 전자금융거래법 등)는 특정 데이터를 최소 5~7년 보관하도록 요구한다. 이 두 가지 요건이 충돌하는 지점에서 AI가 "비용 최적화"를 이유로 자율적 삭제 판단을 내린다면, 그 결과는 법적으로 기업이 전적으로 책임져야 하는 위반이 된다.

국내 상황도 다르지 않다. 개인정보보호법 제21조는 개인정보의 파기 의무와 방법을 규정하고 있으며, 동시에 전자상거래법, 통신비밀보호법 등은 특정 로그 데이터의 보존 기간을 명시한다. AI가 이 복잡한 법적 교차점을 정확히 이해하고 판단한다고 믿을 근거는 현재로서는 없다.

AI 클라우드 거버넌스의 구조적 맹점: "정책 드리프트"

기술적으로 더 심각한 문제는 정책 드리프트(Policy Drift) 현상이다. AI 기반 수명 주기 관리 시스템은 시간이 지남에 따라 학습 데이터와 최적화 목표에 따라 동작 방식이 미묘하게 변화한다. 처음 설정한 보존 정책이 6개월 후에도 동일하게 적용되고 있다고 가정하는 것은 위험하다.

실제로 AWS의 S3 Intelligent-Tiering 문서를 살펴보면, 시스템이 접근 패턴 변화에 따라 계층 이동 결정을 지속적으로 재평가한다는 점을 명시하고 있다. 이는 설계 의도이지만, 동시에 거버넌스 관점에서는 "설정 시점의 정책이 현재도 유효한가"를 지속적으로 검증해야 한다는 의미이기도 하다.

더 나아가, 멀티클라우드 환경에서 에이전틱 AI 도구들이 여러 플랫폼에 걸쳐 데이터를 자율적으로 이동시키는 경우를 생각해보자. 데이터가 AWS에서 GCP로 이동하는 순간, 각 플랫폼의 기본 보존 정책이 충돌할 수 있으며, 어느 쪽 정책이 우선 적용됐는지 추적하기가 극도로 어려워진다.

소셜미디어 플랫폼들이 사용자 데이터를 어떻게 다루는지에 대한 논쟁이 계속되는 것처럼, 클라우드 인프라 레벨에서의 데이터 통제권 문제도 이제 기업 내부를 넘어 더 넓은 사회적 논의로 확장되어야 할 시점이다.

SOC 2, ISO 27001이 가정하지 않은 세계

a person is filling out a form with a pen

Photo by Mika Baumeister on Unsplash

현재 대부분의 규제 준수 프레임워크는 특정 전제 위에 설계됐다. "데이터 보존 정책은 명시적으로 문서화되고, 권한 있는 담당자가 승인하며, 변경 시 추적 가능한 기록이 남는다."

SOC 2의 CC6.1 통제는 데이터 보존 및 폐기에 대한 정책이 "정의되고 전달되어야" 한다고 요구한다. ISO 27001의 A.8.3은 정보 처리 시설에서의 미디어 처리를 위한 절차를 요구한다. GDPR 제30조는 데이터 처리 활동에 대한 기록 유지 의무를 명시한다.

이 모든 프레임워크가 공통적으로 가정하는 것은 "인간이 결정하고, 그 결정이 기록된다"는 것이다. AI가 자율적으로 데이터 보존 결정을 내리는 환경에서, 이 가정은 구조적으로 무너진다.

감사관이 "왜 이 데이터가 삭제됐는가?"라고 물었을 때, "AI가 비용 최적화를 위해 결정했다"는 답변은 법적으로도, 규제 준수 측면에서도 허용되지 않는 답변이다. 그러나 현재 많은 기업들이 사실상 이 상황에 놓여 있을 가능성이 있다.

NDMA 연구가 드러낸 '보이지 않는 위험'처럼, AI 클라우드의 자율적 데이터 삭제 결정도 당장 눈에 보이지 않지만 축적되면 심각한 결과를 초래하는 '조용한 시한폭탄'일 수 있다.

지금 당장 할 수 있는 것: 실무적 대응 프레임

이 문제에 대해 "AI 기능을 끄면 된다"는 접근은 현실적이지 않다. 비용 효율성과 운영 자동화의 이점을 포기하는 것은 경쟁력 문제로 직결된다. 대신, 다음의 거버넌스 레이어를 추가하는 것이 현실적 대안이다.

1. 보존 정책의 "불변 레이어(Immutable Layer)" 설정

AWS S3 Object Lock, Azure Immutable Blob Storage, Google Cloud의 Retention Lock 기능을 활용해 법적 보존 의무가 있는 데이터에는 AI 자동화가 접근할 수 없는 불변 레이어를 별도로 구성해야 한다. AI의 최적화 범위를 명시적으로 제한하는 것이다.

2. 삭제 결정의 "인간 검토 게이트(Human Review Gate)" 구현

일정 크기 이상의 데이터, 혹은 특정 태그(예: compliance-critical, legal-hold)가 붙은 데이터에 대한 삭제 또는 계층 이동 결정은 자동 실행 전 인간 검토 단계를 의무화해야 한다. 기술적으로는 Lambda 함수나 Cloud Functions를 통해 승인 워크플로우를 삽입하는 방식으로 구현 가능하다.

3. 정기적인 "정책 드리프트 감사(Policy Drift Audit)"

분기별로 현재 AI 수명 주기 관리 시스템이 실제로 어떤 결정을 내렸는지를 역추적하는 감사를 수행해야 한다. 클라우드 플랫폼의 스토리지 접근 로그와 오브젝트 변경 이력을 결합해 "AI가 지난 90일간 삭제하거나 이동시킨 데이터 목록"을 생성하고, 이를 보존 정책 문서와 대조해야 한다.

4. 데이터 분류 체계와 AI 정책 엔진의 연동

데이터 거버넌스의 출발점은 분류(Classification)다. 개인정보, 금융 데이터, 법적 증거 가능성이 있는 데이터를 태깅하고, AI 정책 엔진이 이 태그를 인식해 해당 데이터에는 자율적 삭제 결정을 내리지 않도록 설정해야 한다. NIST의 데이터 분류 가이드라인은 이 체계를 구축하는 데 실질적인 참고 기준이 된다.

책임의 공백을 메우는 것은 기술이 아니라 설계다

이 시리즈를 통해 반복적으로 확인하고 있는 패턴이 있다. AI 클라우드 도구들은 점점 더 많은 결정 권한을 흡수하고 있으며, 각각의 결정은 개별적으로는 합리적으로 보인다. 비용을 줄이고, 성능을 높이고, 운영 부담을 낮춘다. 그러나 그 결정들이 축적되면, 기업은 어느 순간 "우리 인프라에서 무슨 일이 일어나고 있는지 아무도 설명할 수 없는" 상태에 도달한다.

데이터 보존과 삭제는 그 중에서도 가장 돌이킬 수 없는 영역이다. 삭제된 데이터는 복구할 수 없고, 그 삭제가 법적 의무 위반이었다면 "AI가 결정했다"는 변명은 통하지 않는다. 책임은 여전히 기업과 그 임원에게 귀속된다.

AI 클라우드의 자율성을 활용하되, 그 자율성이 작동하는 경계를 명확히 설계하는 것 — 이것이 지금 기업 IT 거버넌스 팀이 해야 할 가장 시급한 과제다. 기술은 도구다. 그 도구가 어디까지 결정할 수 있는지를 정하는 것은 여전히 인간의 몫이어야 한다.

태그: AI 클라우드, 데이터 보존, 수명 주기 관리, 거버넌스, 클라우드 컴플라이언스, GDPR, 데이터 삭제, 에이전틱 AI

관련 글 더 보기

이 글이 다루는 "AI 클라우드 거버넌스의 책임 공백" 문제는 하나의 독립된 현상이 아니다. 지금까지 이 시리즈에서 다뤄온 각각의 결정 영역들 — 무엇을 모니터링할지, 어떻게 비용을 집행할지, 보안 정책을 어떻게 재작성할지, 어떤 워크로드를 어떻게 실행할지 — 은 모두 같은 구조적 문제를 공유한다. AI가 결정하고, 인간은 나중에 알게 된다는 것이다.

아래 글들을 함께 읽으면 이 문제의 전체 윤곽이 보인다.

[AI 도구, 이제 클라우드 "보안 정책"도 스스로 결정한다 — 그 판단은 당신이 승인했는가?]
[AI Tools Are Now Deciding How Your Cloud Spends — And Nobody Approved That]
[AI Cloud Tools Are Now Deciding What to Monitor — And Nobody Approved That]
[AI 클라우드, 이제 "무엇을 실행할지"도 스스로 결정한다 — 그 컴퓨팅 판단은 당신이 승인했는가?]
[AI Cloud Tools Are Now Deciding How Your Cloud Thinks — And Nobody Approved That]

김테크는 국내외 IT 업계를 15년간 취재해온 테크 칼럼니스트입니다. AI, 클라우드, 스타트업 생태계를 깊이 있게 분석하며, 기술이 조직과 사회에 미치는 구조적 영향에 주목합니다. 이 글에 대한 의견이나 반론은 언제든 환영합니다.

NOCODE TECH STACKER