arXiv논문2026. 05. 26. 12:50

TIAR: LLM 기권 학습을 위한 궤적 정보 기반 이점 재가중 (Trajectory-Informed Advantage Reweighting)

요약

LLM의 기권 학습을 위해 궤적 정보 기반 이점 재가중(TIAR) 방식을 제안하는 논문입니다. GRPO 학습 과정에서 궤적을 신뢰도 지표로 활용하여 기권 보상을 동적으로 재가중함으로써 환각을 줄이고 지식의 경계를 탐색합니다.

핵심 포인트

GRPO를 활용한 궤적 정보 기반 이점 재가중(TIAR) 방법론 제안
기권 보상을 동적으로 조절하여 LLM의 진실성 및 환각 감소 유도
AbstentionBench 테스트 결과 5개 카테고리에서 SOTA 달성
정확도를 유지하며 31개 데이터셋 중 17개에서 기존 베이스라인 능가

본 논문은 대규모 언어 모델 (LLM)의 기권 학습 (abstention learning), 특히 대규모 언어 모델의 진실성을 장려하는 삼항 보상 (ternary reward) 사용을 조사합니다. 본 논문은 삼항 보상에서 궤적 정보 기반 이점 재가중 (Trajectory-Informed advantage reweighting)으로 개념을 확장하며, 이는 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 학습 과정 동안 기권 보상 (abstention reward)을 동적으로 재가중합니다. 본 연구의 목적은 진실성을 개선하는 대신 기권 학습에 초점을 맞추며, 환각 (hallucination) 감소를 위한 탐색 역할을 합니다. 본 논문의 독창성은 방법론적 혁신, 이점 재가중 (advantage re-weighting), 그리고 벤치마크 선정에 있습니다. GRPO의 다중 궤적 (multiple trajectories)을 자연스러운 기권 신호로 활용함으로써, 이 방법은 보상 신호를 사용하여 지식의 경계를 탐색하고 일관성을 장려합니다. 궤적이 쿼리 (query)에 대한 정책 (policy)의 신뢰도 지표로 사용될 수 있음을 입증함으로써, 이를 통해 기권 이점 (abstention advantage)을 동적으로 계산합니다. 본 연구는 기권 학습 분야에 기여하는 것을 목표로 하므로 AbstentionBench를 평가 벤치마크로 사용합니다. 벤치마크의 모든 데이터셋을 이 방법 및 다양한 베이스라인 (baselines)과 비교 테스트했습니다. 실증적 결과에 따르면, TIAR는 6개의 평가 카테고리 중 5개에서 최첨단 (state-of-the-art) 기권 F1 점수를 달성하였으며, 베이스라인의 정확도를 완전히 유지하면서 31개의 벤치마크 데이터셋 중 17개에서 정적 삼항 베이스라인 (static ternary baseline)을 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TIAR: LLM 기권 학습을 위한 궤적 정보 기반 이점 재가중 (Trajectory-Informed Advantage Reweighting)

요약

핵심 포인트

댓글