메타인지적 피드백을 통한 강화학습(RL)은 LLM의 충실한 불확실성 표현을 유도한다

메타인지(Metacognition)는 자신의 인지 과정을 모니터링하고 조절하는 능력을 설명하는 지능의 핵심 요소입니다. 그러나 LLM은 주요 메타인지 능력에서 체계적인 결함을 보입니다. 즉, 높은 확신을 가지고 환각(Hallucination)을 일으키고, 지식의 경계를 인식하지 못하며, 내부의 불확실성을 잘못 표현하여 신뢰성과 안정성을 저해합니다. 작업 성능을 모니터링하고 그에 따라 행동을 조정하는 것이 메타인지의 중심이기에, 우리는 자신의 성능을 정확하게 판단할 수 있는 모델이 성능을 개선하는 데 더 유리한 위치에 있다고 가정합니다. 우리는 이 아이디어를 두 가지 새로운 메커니즘을 통해 구현합니다. 첫째는 메타인지적 피드백을 활용한 강화학습(RLMF, Reinforcement Learning with Metacognitive Feedback)으로, 모델의 성능에 대한 자기 판단(Self-judgment) 품질을 기반으로 선호도 최적화(Preference Optimization) 과정 중 완료 순위(Completion Rankings)를 정교화하는 패러다임입니다. 둘째는 메타인지적 데이터 선택(Metacognitive Data Selection)으로, 유사한 자기 판단을 사용하여 가치가 높은 학습 예시를 식별하며, 이는 단순한 능동 학습(Active Learning)보다 뛰어난 성능을 보입니다. 우리는 이러한 혁신을 충실한 교정(FC, Faithful Calibration) 문제에 적용합니다. 이 작업 자체도 근본적으로 메타인지적인데, 그 목표는 표현된 불확실성을 내재적 불확실성과 일치시키는 것이며, 이는 최첨단(Frontier) LLM들에게도 어려운 과제입니다. 우리는 2단계의 분리된 접근 방식을 채택하여, 먼저 이러한 방법들을 사용하여 모델이 스스로 보고하는 신뢰도 점수의 충실성을 교정하고, 그 다음 타겟팅된 출력 편집(Targeted Output Editing)을 통해 자연스럽고 문맥에 적응 가능한 언어적 불확실성으로 매핑합니다. 광범위한 실험 결과, RLMF는 정확도를 유지하면서도 다양한 작업에서 일반화 가능한 최첨단(SOTA) FC를 달성함을 보여주었습니다. 나아가 RLMF는 표준 RL보다 최대 63% 더 우수한 성능을 보였으며, 모델이 자신의 능력 한계를 평가하고 표현하는 능력을 향상시켰습니다. 이는 RLMF를 향상된 능력과 정렬(Alignment)을 향한 LLM 메타인지를 강화하는 유망한 패러다임으로 자리매김하게 하며, 메타인지적 성능이 이전의 내재적 피드백 방법의 한계를 극복하기 위한 효과적인 RL 신호임을 시사합니다.

Insights

메타인지적 피드백을 통한 강화학습(RL)은 LLM의 충실한 불확실성 표현을 유도한다

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들