arXiv논문2026. 06. 04. 13:16

랭킹을 통한 자기 일관성 (Self-Consistency) 향상

요약

LLM의 자기 일관성(Self-Consistency) 성능을 높이기 위해 답변 선택을 랭킹 문제로 재정의한 RISC 방법론을 제안합니다. LambdaRank 모델을 활용해 답변 빈도와 의미적 중심성 등 5가지 특징을 결합하여 최적의 답변을 도출합니다.

핵심 포인트

다수결 투표의 한계를 극복하기 위해 랭킹 기반 접근법 도입
LambdaRank 모델을 통한 후보 답변의 정교한 점수 산출
답변 빈도, 의미적 중심성, 추론 흔적 일관성 등 5가지 특징 활용
기존 방식 대비 우수한 정확도-효율성 트레이드오프 달성

자기 일관성 (Self-consistency)은 여러 추론 경로 (reasoning paths)를 샘플링하고 가장 빈번한 답변을 선택함으로써 대규모 언어 모델 (LLM)의 성능을 향상시키지만, 다수결 투표 (majority voting)는 샘플들 사이에 이미 존재하는 정답을 복구하는 데 종종 실패합니다. 우리는 자기 일관성에서의 답변 선택을 랭킹 문제 (ranking problem)로 재정의하는 랭킹 개선 자기 일관성 (Ranking-Improved Self-Consistency, RISC)을 통해 이러한 한계를 해결합니다. RISC는 단일한 불확실성 (uncertainty) 또는 신뢰도 (confidence) 신호에 의존하는 대신, 답변 빈도, 의미적 중심성 (semantic centrality), 그리고 추론 흔적 일관성 (reasoning-trace consistency)을 포착하도록 정교하게 설계된 5가지 특징 (features)을 사용하여 경량 LambdaRank 모델로 후보 답변의 점수를 매깁니다. 우리는 다양한 테스트 시간 예산 (test-time budgets) 하에서 세 가지 데이터셋에 대해 RISC를 평가합니다. 데이터셋 전반에 걸쳐 RISC는 표준 자기 일관성 및 강력한 베이스라인 (baselines)보다 일관되게 더 나은 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 달성하며, 특히 질의응답 (question answering) 벤치마크에서 큰 이득을 보였습니다. 추가 분석 결과, 제안된 특징들은 개별적으로 유용할 뿐만 아니라 더 중요하게는 상호 보완적임을 보여주며, 이는 테스트 시간 답변 선택을 위해 여러 정보성 신호 (informative signals)를 결합하는 법을 학습하는 것의 가치를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

랭킹을 통한 자기 일관성 (Self-Consistency) 향상

요약

핵심 포인트

댓글