52%의 유틸리티 세금(Utility Tax)이 드러내는 충실한 불확실성(Faithful Uncertainty)의 이점

Google 연구원들은 모델을 무용지물인 침묵 상태로 몰아넣지 않으면서 **LLM 환각 (LLM hallucinations)**을 줄이기 위해 노력하고 있습니다.

그 트레이드오프(tradeoff)는 Google 연구원들이 새로운 논문에서 설명하고 VentureBeat에서 다룬 충실한 불확실성 (faithful uncertainty) 기술의 핵심 문제입니다. 아이디어는 단순하지만 중대한 영향을 미칩니다. 모델은 단순히 사실을 아는 것에 그쳐서는 안 됩니다. 모델은 자신의 확신이 충분하지 않을 때, 불안정한 답변을 확정된 사실처럼 제시하는 대신 "제 최선의 추측은 이렇습니다"라고 말할 수 있을 정도로 자신의 상태를 알아야 합니다.

왜 기업들이 지금 LLM의 충실한 불확실성에 관심을 가져야 할까요?

실질적인 고충은 **대규모 언어 모델 (large language models)**이 가끔 틀린다는 점이 아닙니다. 인간도 가끔 틀립니다. 더 큰 문제는 LLM이 정답을 말할 때나, 불확실할 때, 혹은 그럴듯한 답변을 지어낼 때나 똑같이 자신감 넘치는 어조로 말한다는 점입니다.

현재의 완화 전략은 가혹한 트레이드오프를 만들어냅니다. 개발자가 모델의 환각률을 거의 0에 가깝게 낮추려고 밀어붙이면, 모델은 올바르게 답변할 수 있었던 질문조차 거부하는 경우가 많습니다. 이는 서류상으로는 시스템을 더 안전하게 만들지만, 실제 운영 환경(production)에서는 유용성을 떨어뜨립니다.

Google의 논문은 이를 **"유틸리티 세금 (utility tax)"**라고 부릅니다. 논문의 한 예시는 이 세금이 얼마나 비용이 많이 들 수 있는지를 보여줍니다. 기존의 **25% 오류율 (error rate)**을 엄격한 5% 목표치로 줄이려면, 개발자는 모델의 올바른 답변 중 52%를 버려야만 합니다.

이 수치는 왜 많은 기업용 AI 배포가 정체되는지를 잘 보여줍니다. 모든 것에 자신 있게 답하는 모델은 사용자를 오도할 수 있습니다. 반대로 너무 자주 답변을 거부하는 모델은 운영상의 짐이 됩니다.

"LLM의 사실성을 향상시키는 방법에는 크게 두 가지가 있습니다,"라고 Google의 연구 과학자(Research Scientist)이자 논문의 공동 저자인 Gal Yona가 VentureBeat에 말했습니다.

Yona는 한 가지 방법이 모델에게 더 많은 사실을 가르치는 것이라고 말했습니다. 하지만 여기에는 한계가 있습니다.

"모델의 용량(capacity)은 유한하지만, 지식의 롱테일(long tail)은 사실상 무한합니다."

두 번째 경로는 더 미묘합니다. 모델이 자신이 아는 것의 경계를 인식하도록 가르치는 것입니다.

인접한 AI 신뢰성 문제를 추적하는 독자라면, 이 내용은 XOOMAR의 AI Memory Can Make Chatbots Confidently Wrong at Work 및 SkillOpt Bets AI Agents Can Improve Without Retraining 보도와 맞닿아 있습니다. 공통된 질문은 모델의 가공되지 않은(raw) 성능이 아니라, 바로 제어(control)입니다.

대규모 언어 모델(LLM)에게 충실한 불확실성(Faithful Uncertainty)이란 무엇을 의미하는가?

**충실한 불확실성 (Faithful uncertainty)**이란 모델이 확신에 대해 말하는 방식이 모델의 내부 통계적 확신(internal statistical confidence)과 일치함을 의미합니다.

좁은 의미처럼 들릴 수 있지만, 그렇지 않습니다. 이 논문은 흔히 혼동되는 두 가지 능력(capability)을 구분합니다.

능력 (Capability)	의미	중요성
지식 경계 (Knowledge boundary)	모델이 인코딩(encoded)하고 있는 사실들	더 많은 학습을 통해 이 경계를 확장할 수 있음
경계 인식 (Boundary awareness)	모델이 자신이 아는 것과 모르는 것을 구분할 수 있는지 여부	더 많은 학습을 한다고 해서 이것이 자동으로 해결되지는 않음

모델의 규모가 커지면 더 많은 것을 알게 될 수 있습니다. 하지만 그것이 모델이 자신의 지식 경계에 도달했을 때를 인지한다는 것을 의미하지는 않습니다.

충실한 불확실성은 바로 그 두 번째 계층을 목표로 합니다. 모델이 강력한 내부 확신을 가지고 있다면 직접적으로 답변할 수 있습니다. 만약 모델의 내부 상태가 불확실성, 충돌 또는 낮은 확신을 반영한다면, 일반적인 언어를 사용하여 완곡하게 표현(hedge)해야 합니다.

핵심은 모든 답변에 면책 조항(disclaimer)을 붙이는 것이 아닙니다. 그것은 다른 방식으로 신뢰를 무너뜨릴 것입니다. 모든 응답이 “제가 틀릴 수도 있습니다”로 시작한다면, 사용자는 어차피 모든 것을 검증해야 하기 때문입니다.

목표는 선택적 의심(selective doubt)입니다. 유용한 완곡한 표현(hedge)은 모델의 내부 상태가 이를 정당화할 때만 나타나야 합니다.

예시:

확신에 찬 답변: “제출 마감일은 금요일입니다.”
조건부 가설: “제가 추측하기로는 마감일이 금요일인 것 같습니다만, 최신 공고를 확인해 보시는 것이 좋겠습니다.”
도움이 되지 않는 포괄적 주의 사항: “제가 틀릴 수도 있습니다만, 마감일이 금요일일 수도 있습니다.”

세 번째 버전은 노이즈(noise)를 추가합니다. 두 번째 버전은 시그널(signal)을 추가합니다.

환각(hallucination)을 확신에 찬 오류(confident errors)로 재정의하는 것이 AI 안전성(AI safety)을 어떻게 변화시킬까요?

Google 연구진은 환각에 대해 더 날카로운 정의를 제안합니다. 즉, 모든 사실적 오류가 아니라, **확신에 찬 오류(confident error)**로 정의하는 것입니다.

이러한 재정의가 중요한 이유는 기존의 **답변 또는 기권(answer-or-abstain)**이라는 이분법을 깨뜨리기 때문입니다. 모델은 더 이상 확신을 가지고 답변하거나 거절하는 두 가지 선택지만을 갖지 않습니다. 세 번째 옵션, 즉 제한적인 가설(qualified hypothesis)을 제시하는 옵션을 갖게 됩니다.

이러한 프레임워크 하에서, 적절한 불확실성(uncertainty)을 동반한 오답은 권위 있게 전달되는 오답과 동일하게 취급되지 않습니다. 전자는 가설이며, 후자는 환각(hallucination)입니다.

원문에서 사용된 의사 비유가 여기서 유용합니다. 우리는 의사가 모든 것을 알기 때문에 신뢰하는 것이 아닙니다. 확정적인 진단과 검사가 필요한 가설적 이론(working theory)을 구분할 수 있기 때문에 그들을 신뢰합니다.

모델도 이와 동일하게 행동해야 합니다. “골절되었습니다”와 “염좌일 수도 있지만, 몇 가지 검사를 해봅시다”는 서로 다른 수준의 확신(confidence)을 전달합니다. 가치는 바로 이 구분에 있습니다.

이는 또한 두 가지 유형의 실패를 더 명확하게 구분해 줍니다:

정직한 실수 (Honest mistakes): 모델이 진심으로 확신하고 있지만 사실 관계가 틀린 경우.
환각 (Hallucinations): 모델이 정당화되지 않은 확신을 가지고 잘못된 정보를 제공하는 경우.

이러한 구분은 개발자에게 상호 보완적인 두 가지 과제를 부여합니다. 더 많은 데이터로 학습하는 것은 지식의 경계를 확장함으로써 정직한 실수를 줄일 수 있습니다. 충실한 불확실성(Faithful uncertainty)은 모델이 현재 그 경계가 어디에 위치하는지를 소통하게 함으로써 환각을 줄일 수 있습니다.

충실한 불확실성이 에이전트형 AI(agentic AI)의 도구 사용 및 검색 결정력을 어떻게 개선할 수 있을까요?

에이전트형 AI(Agentic AI)는 불확실성을 덜 중요하게 만드는 것이 아니라, 오히려 더 중요하게 만듭니다.

언뜻 보기에는 도구(tool)에 대한 접근 권한이 이 문제를 해결하는 것처럼 보입니다. 모델이 무언가를 모른다면 검색하거나, 문서를 검색(retrieve)하거나, API를 호출할 수 있기 때문입니다. 하지만 이는 제어 문제(control problem)를 야기합니다. 즉, 에이전트가 언제 도구를 사용해야 하는가 하는 문제입니다.

VentureBeat가 보도한 바에 따르면, Yona의 지적은 에이전트가 양방향 모두에서 실패할 수 있다는 점입니다. 에이전트는 이미 알고 있는 정보를 검색하여 이득 없이 지연 시간(latency)과 비용만 추가할 수도 있습니다. 또는 외부 소스를 확인해야 할 상황임에도 메모리(memory)에 의존하여 답변할 수도 있습니다.

오늘날의 에이전트 하네스(agentic harnesses)는 쿼리 분류기(query classifiers)나 항상 검색하는 규칙(always-search rules)을 사용합니다. Yona는 이러한 접근 방식들을 "정적이고 취약하다(static and brittle)"라고 설명했습니다.

충실한 불확실성(Faithful uncertainty)은 그 결정 과정을 모델 자체에 더 가깝게 이동시킬 것입니다. 내부 확신(internal confidence)이 높다면 답변하고, 확신이 낮다면 검색(retrieve)합니다. 만약 검색된 정보가 모델의 사전 확률(priors)과 충돌한다면, 새로운 컨텍스트(context)를 맹목적으로 신뢰하는 대신 그 충돌을 가중치로 계산(weigh)합니다.

실질적인 구현 패턴은 다음과 같을 수 있습니다:

질문: 문서 분석 에이전트에게 갱신 조항이 적용되는지 질문합니다.
내부 확인: 모델이 부분적인 확신은 있으나 조치를 권고할 만큼 충분하지는 않습니다.
헤징된 응답(Hedged response): "제 최선의 추측으로는 갱신 조항이 적용될 수 있으나, 원본 문서를 확인해야 합니다."
도구 호출(Tool call): 에이전트가 관련 문서를 검색합니다.
두 번째 확인: 에이전트는 응답하기 전에 검색된 조항을 자신의 초기 해석과 비교합니다.

이는 논문에서 보고된 배포 사례는 아닙니다. 논문이 지향하는 제어 로직(control logic)입니다.

2차적인 이점 또한 매우 중요합니다. 메타인지적 에이전트(metacognitive agent)는 검색된 모든 스니펫(snippet)을 진실로 취급해서는 안 됩니다. 검색 결과가 약하거나, 모순되거나, 예상치 못한 자료를 반환한다면, 모델은 이를 비판 없이 흡수하기보다 해당 신호를 판단할 수 있는 방법이 필요합니다.

왜 LLM에게 충실한 불확실성을 가르치는 것이 그렇게 어려운가?

모델에게 불확실성의 언어를 가르치는 것은 쉬워 보이지만, 그렇지 않습니다.

사전 학습된(Pre-trained) 모델들은 방대한 양의 권위 있는 텍스트를 흡수합니다. 이들은 유창한 답변을 생성하도록 훈련되었지, 반드시 "완전히 확신할 수 없습니다"라고 말하도록 훈련된 것이 아닙니다. 따라서 개발자들은 **지도 미세 조정(supervised fine-tuning)**을 사용하여 불확실성의 구문(syntax)을 가르칠 수 있습니다.

하지만 이는 **부트스트래핑 역설(bootstrapping paradox)**을 야기합니다.

일반적인 훈련 데이터(training data)에서 정답은 대개 고정되어 있습니다. 하지만 불확실성(uncertainty)이 개입되면, "정답" 레이블은 특정 모델이 훈련의 특정 시점에서 무엇을 알고 있는지에 따라 달라집니다.

"여기서 문제가 발생합니다. 불확실성을 표현하는 '정확한' 방식은 본질적으로 동적(dynamic)입니다. 왜냐하면 이는 특정 모델이 훈련의 특정 시점에서 무엇을 알고 있는지, 혹은 무엇을 모르는지에 달려 있기 때문입니다."라고 Yona는 말했습니다.

만약 데이터셋이 모델에게 "X를 모릅니다"라고 말하도록 지시하지만, 모델이 실제로 X를 알고 있다면, 훈련 과정은 잘못된 불확실성을 가르치게 됩니다. 이는 그 자체로 일종의 미교정(miscalibration)입니다.

Yona는 이 긴장 관계를 명확하게 설명했습니다.

"만약 모델이 실제로 X를 알고 있음에도 'X를 모릅니다'라고 말하는 레이블로 훈련시킨다면, 모델에게 불확실성을 환각(hallucinate)하도록 가르치는 셈입니다... 훈련 데이터는 정적(static)이지만, 목표(target)는 움직이는 것이며, 이것이 바로 팀들이 씨름해야 할 근본적인 긴장 관계입니다."

평가(Evaluation) 또한 해결되지 않은 문제입니다. 모델은 자신의 내부 상태(internal state)를 실제로 감지하지 못한 채 자아 인식(self-awareness)의 스타일만을 학습할 수 있습니다. 프롬프트(prompt)가 신중하게 말하도록 요구하기 때문에 신중하게 들릴 수도 있는 것입니다. 이는 충실한 교정(faithful calibration)과는 다릅니다.

모델을 재훈련하지 않고 충실한 불확실성을 테스트하기 시작하는 방법은 무엇인가요?

모델을 재훈련할 수 없는 팀들에게는 프롬프팅(prompting)이 진입점입니다.

Yona는 프롬프트 엔지니어링(prompt engineering)을 "오늘날 메타인지적 행동(metacognitive behavior)을 개선하기 위한 마찰이 가장 적은 경로"라고 불렀습니다. 한 가지 예로, 이전에 Yona가 공동 저자로 참여했던 오픈 소스 메타인지 프롬프팅 프로젝트인 MetaFaith가 있습니다. 별도의 MetaFaith 논문에서 저자들은 인간이 판단했을 때 충실도(faithfulness)가 최대 61% 향상되었으며, 기존 생성물 대비 83%의 승률을 기록했다고 보고했습니다.

프롬프팅에는 한계가 있습니다. Yona는 또한 "프롬프팅만으로는 해결할 수 없는 상당한 여지(headroom)가 여전히 남아 있다"고 경고했습니다. 원문 자료는 더 깊은 훈련 단계의 메타인지를 위한 유망한 경로로 고급 **강화학습 (RL)**을 지목하고 있습니다.

단기적인 처방은 더 좁고 실용적입니다. 즉, 모델이 답변(answer), 헤징(hedge), 검색(retrieve)을 분리할 수 있는지 테스트하십시오. 단순히 사실적 정확도(factual accuracy)만을 측정하지 마십시오. 신뢰 언어(confidence language)가 신뢰 상태(confidence state)와 일치하는지를 측정하십시오.

AI 에이전트의 다음 신뢰성 프런티어(reliability frontier)는 언제 말할지, 언제 조건을 달지, 그리고 언제 도움을 요청할지를 결정하는 것이 될 것입니다. 만약 충실한 불확실성(faithful uncertainty)이 작동한다면, 유용함과 신뢰성 사이에서 선택해야 하는 시스템은 더 줄어들 것입니다.

영향 분석 (Impact Analysis)

충실한 불확실성(Faithful uncertainty)은 기업용 LLM을 사용 불가능할 정도로 조심스럽게 만들지 않으면서도 더 안전하게 만들 수 있습니다.
이 연구는 핵심적인 문제를 겨냥합니다. 모델은 답변이 신뢰할 수 없을 때조차 종종 자신감 있게 들린다는 점입니다.
25%의 오류율을 5% 목표로 줄이는 과정에서 52%의 정답을 버려야 할 수도 있다는 점은, 왜 더 나은 불확실성 처리가 중요한지를 보여줍니다.

원문은 XOOMAR에 게시되었습니다. 더 많은 뉴스 및 분석을 보려면 XOOMAR를 방문하세요.