메타인지적 피드백을 통한 강화학습(RL)은 LLM의 충실한 불확실성 표현을 유도한다
요약
LLM의 환각 문제를 해결하기 위해 메타인지적 피드백을 활용한 강화학습(RLMF) 방법론을 제안합니다. 모델이 자신의 성능을 스스로 판단하고 불확실성을 정확히 표현하도록 유도하여 신뢰성을 높이는 연구입니다.
핵심 포인트
- 메타인지적 피드백을 활용한 강화학습(RLMF) 패러다임 제안
- 모델의 자기 판단 품질을 기반으로 선호도 최적화 정교화
- 표준 RL 대비 최대 63% 향상된 충실한 교정(FC) 성능 달성
- 모델이 자신의 능력 한계를 정확히 인식하고 표현하도록 개선
메타인지(Metacognition)는 자신의 인지 과정을 모니터링하고 조절하는 능력을 설명하는 지능의 핵심 요소입니다. 그러나 LLM은 주요 메타인지 능력에서 체계적인 결함을 보입니다. 즉, 높은 확신을 가지고 환각(Hallucination)을 일으키고, 지식의 경계를 인식하지 못하며, 내부의 불확실성을 잘못 표현하여 신뢰성과 안정성을 저해합니다. 작업 성능을 모니터링하고 그에 따라 행동을 조정하는 것이 메타인지의 중심이기에, 우리는 자신의 성능을 정확하게 판단할 수 있는 모델이 성능을 개선하는 데 더 유리한 위치에 있다고 가정합니다. 우리는 이 아이디어를 두 가지 새로운 메커니즘을 통해 구현합니다. 첫째는 메타인지적 피드백을 활용한 강화학습(RLMF, Reinforcement Learning with Metacognitive Feedback)으로, 모델의 성능에 대한 자기 판단(Self-judgment) 품질을 기반으로 선호도 최적화(Preference Optimization) 과정 중 완료 순위(Completion Rankings)를 정교화하는 패러다임입니다. 둘째는 메타인지적 데이터 선택(Metacognitive Data Selection)으로, 유사한 자기 판단을 사용하여 가치가 높은 학습 예시를 식별하며, 이는 단순한 능동 학습(Active Learning)보다 뛰어난 성능을 보입니다. 우리는 이러한 혁신을 충실한 교정(FC, Faithful Calibration) 문제에 적용합니다. 이 작업 자체도 근본적으로 메타인지적인데, 그 목표는 표현된 불확실성을 내재적 불확실성과 일치시키는 것이며, 이는 최첨단(Frontier) LLM들에게도 어려운 과제입니다. 우리는 2단계의 분리된 접근 방식을 채택하여, 먼저 이러한 방법들을 사용하여 모델이 스스로 보고하는 신뢰도 점수의 충실성을 교정하고, 그 다음 타겟팅된 출력 편집(Targeted Output Editing)을 통해 자연스럽고 문맥에 적응 가능한 언어적 불확실성으로 매핑합니다. 광범위한 실험 결과, RLMF는 정확도를 유지하면서도 다양한 작업에서 일반화 가능한 최첨단(SOTA) FC를 달성함을 보여주었습니다. 나아가 RLMF는 표준 RL보다 최대 63% 더 우수한 성능을 보였으며, 모델이 자신의 능력 한계를 평가하고 표현하는 능력을 향상시켰습니다. 이는 RLMF를 향상된 능력과 정렬(Alignment)을 향한 LLM 메타인지를 강화하는 유망한 패러다임으로 자리매김하게 하며, 메타인지적 성능이 이전의 내재적 피드백 방법의 한계를 극복하기 위한 효과적인 RL 신호임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기