AI가 "모르겠습니다"를 배워야 하는 이유 — RLCR이 바꾸는 신뢰의 기준

AI가 틀릴 때보다 더 위험한 순간이 있다. 틀렸는데도 확신에 차서 말할 때다. MIT CSAIL 연구팀이 개발한 RLCR(Reinforcement Learning with Calibration Rewards)은 바로 그 문제를 정면으로 겨냥한다.

가장 자신감 넘치는 AI가 가장 위험하다

금융 시장에서 20년 가까이 취재를 해오면서 나는 "자신감 넘치는 틀린 분석"이 얼마나 값비싼 대가를 치르는지 반복해서 목격했다. 애널리스트가 틀리는 것 자체는 용납된다. 그러나 틀린 전망을 95%의 확신으로 포장해서 내놓는 것은 전혀 다른 문제다. 투자자는 그 숫자를 보고 헤지를 포기하고, 리스크 관리를 건너뛴다.

AI 추론 모델이 지금 정확히 그 함정에 빠져 있다.

MIT CSAIL의 연구에 따르면, OpenAI의 o1 같은 최신 추론 모델들은 훈련 방식의 구조적 결함으로 인해 정답을 추론했을 때와 우연히 맞혔을 때를 동일하게 보상받는다. 그 결과, 모델은 어떤 질문에도 흔들리지 않는 확신으로 답변하도록 학습된다.

"표준 훈련 방식은 단순하고 강력하지만, 모델에게 불확실성을 표현하거나 '모르겠다'고 말할 인센티브를 전혀 주지 않는다. 그래서 모델은 불확실할 때 자연스럽게 추측하도록 학습된다." — Mehul Damani, MIT 박사과정 (공동 제1저자)

보상 함수 하나가 만들어낸 시스템 리스크

이 문제의 뿌리는 놀랍도록 단순하다. 강화학습(RL) 기반 훈련에서 모델은 정답이면 보상, 오답이면 패널티를 받는다. 그 중간은 없다. 신중한 추론 끝에 맞힌 답과 동전 던지기로 맞힌 답이 같은 점수를 받는 구조다.

공동 제1저자인 Isha Puri MIT 박사과정 연구원은 이 역설을 명확하게 짚는다.

"일반적인 RL 훈련은 단순히 교정(calibration)에 도움이 되지 않는 것이 아니다. 오히려 적극적으로 교정을 망가뜨린다. 모델은 더 유능해지는 동시에 더 과신하게 된다." — Isha Puri, MIT 박사과정 (공동 제1저자)

이것은 단순한 학술적 관찰이 아니다. 파이낸셜 마켓에서 이 구조를 대입해보면 공포스럽다. 모델이 "95% 확신"이라고 말하는데 실제 정확도가 50%라면, 그 모델은 사용자에게 헤지를 포기할 근거를 제공하는 셈이다. 단순히 틀린 답을 내놓는 것보다 훨씬 더 체계적인 피해를 일으킨다.

Artificial intelligence concept within a human head

Photo by Zach M on Unsplash

RLCR: 보상 함수에 '브라이어 점수'를 더하다

MIT 팀의 해법은 개념적으로는 우아하다. 기존 보상 함수에 브라이어 점수(Brier Score)라는 항목 하나를 추가하는 것이다. 브라이어 점수는 모델이 표명한 자신감과 실제 정확도 사이의 간극을 측정하는 오래된 통계 도구다. 기상 예보나 의학 진단 분야에서 수십 년간 쓰여온 검증된 방법론이다.

RLCR로 훈련된 모델은 답을 내놓으면서 동시에 그 답에 대한 신뢰도 점수를 함께 생성한다. 자신 있게 틀린 답은 패널티를 받는다. 불필요하게 불확실해하며 맞힌 답도 마찬가지다.

실험 결과는 인상적이다:

교정 오류(calibration error) 최대 90% 감소
정확도는 유지하거나 오히려 향상
훈련에 사용하지 않은 6개의 새로운 벤치마크 데이터셋에서도 일관된 성능
사후(post-hoc) 방식으로 별도 분류기를 붙이는 기존 접근법보다 우수

특히 주목할 부분은 마지막 결과다. 지금까지 업계에서 흔히 쓰던 방법은 이미 완성된 모델에 "자신감 점수 분류기"를 덧붙이는 것이었다. 그런데 RLCR은 그 방식보다 더 나은 결과를 냈다. 훈련 과정 자체에 불확실성 인식을 내재화하는 것이, 나중에 외부에서 붙이는 것보다 근본적으로 다른 접근임을 시사한다.

금융과 의료에서 이 연구가 갖는 실질적 무게

나는 아시아-태평양 시장을 오랫동안 취재하면서 핀테크와 AI 기반 금융 분석 도구의 급격한 확산을 지켜봤다. 한국, 싱가포르, 홍콩의 주요 금융기관들은 이미 AI 추론 모델을 신용 평가, 리스크 분석, 규제 컴플라이언스 자동화에 적용하고 있다.

문제는 이 시스템들이 내놓는 "확신도 높은 답변"을 담당자들이 얼마나 비판적으로 검토하느냐다. 실무 현장에서는 AI가 높은 자신감을 표명할수록 인간의 2차 검토가 생략되는 경향이 있다. 이것이 RLCR 연구가 지적하는 핵심 위험이다.

의료 분야는 더 직접적이다. AI 진단 보조 시스템이 "이 증상은 양성일 가능성이 높습니다"라고 95% 자신감으로 말할 때, 의사는 추가 검사를 건너뛸 유혹을 받는다. 그 95%가 실제로는 50%짜리라면, 그것은 단순한 오진이 아니라 시스템이 설계한 과신의 결과다.

생성형 AI 도구가 학술·전문 영역에서 만들어내는 "역량의 환상"과 맞닿아 있는 문제이기도 하다. AI가 유창하고 자신감 있게 말할수록, 그 내용의 신뢰성을 검증하려는 인간의 인지적 노력은 줄어든다.

기사가 말하지 않는 맥락: 경쟁 구도와 상업적 인센티브

MIT 연구팀이 지적한 문제는 기술적이지만, 그 뿌리에는 상업적 인센티브 구조가 있다.

현재 AI 모델 성능 평가의 주된 지표는 정확도(accuracy) 다. 벤치마크 리더보드에서 1위를 차지하는 모델이 가장 많이 팔린다. 교정 오류(calibration error)는 거의 어떤 공개 벤치마크에도 주요 지표로 올라오지 않는다. OpenAI, Anthropic, Google DeepMind가 서로 정확도 경쟁을 벌이는 동안, "내가 틀렸을 수도 있다"는 능력은 평가 기준에서 빠져 있었다.

RLCR이 학술적으로 유효하다고 해도, 이 방법론이 상용 모델에 실제로 채택되려면 두 가지 조건이 필요하다. 첫째, 교정 정확도를 요구하는 고객(의료기관, 금융기관, 규제 당국)의 구매 압력. 둘째, 교정 오류를 포함한 벤치마크 표준화.

AI 시스템이 어떤 정보를 어떻게 처리하고 판단하는지에 대한 투명성이 점점 더 중요한 거버넌스 이슈로 부상하는 지금, RLCR이 제기하는 질문은 기술의 영역을 넘어선다. "이 AI가 얼마나 자주 맞는가"가 아니라 "이 AI는 자신이 모를 때 그것을 알고 있는가"를 물어야 한다.

추론 자체가 신호다

연구팀의 추가 발견 하나가 특히 흥미롭다. 모델이 불확실성에 대해 명시적으로 추론하는 과정 자체가 독립적인 정보 가치를 갖는다는 것이다. 연구팀이 모델 출력을 기반으로 분류기를 훈련시켰을 때, 모델의 불확실성 추론 텍스트를 입력에 포함시키면 분류기 성능이 향상됐다. 특히 소형 모델에서 효과가 두드러졌다.

이것은 단순한 부산물이 아니다. "모르는 것을 안다"는 메타인지적 능력이 AI 시스템의 다음 신뢰성 기준이 될 수 있음을 시사한다. Brier Score는 기상 예보 분야에서 수십 년간 예측의 질을 측정하는 데 쓰였다. 그것이 이제 AI 추론 모델의 핵심 훈련 신호로 들어오고 있다는 사실은, 예측의 신뢰성을 다루는 오래된 통계적 지혜가 AI 시대에도 여전히 유효하다는 방증이기도 하다.

7B 파라미터 모델에서 검증된 이 방법론이 더 큰 모델로 확장될 때 동일한 효과를 낼지는 아직 확인이 필요하다. 그러나 "교정 오류 최대 90% 감소"라는 수치는, 훈련 비용 대비 효과 면에서 무시하기 어려운 결과다.

AI가 "모르겠습니다"라고 말할 수 있는 날이 오면, 그것은 AI가 약해진 것이 아니다. 비로소 신뢰할 수 있는 도구가 된 것이다.

NOCODE TECH STACKER