본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 04. 13:16

랭킹을 통한 자기 일관성 (Self-Consistency) 향상

요약

LLM의 자기 일관성(Self-Consistency) 성능을 높이기 위해 답변 선택을 랭킹 문제로 재정의한 RISC 방법론을 제안합니다. LambdaRank 모델을 활용해 답변 빈도와 의미적 중심성 등 5가지 특징을 결합하여 최적의 답변을 도출합니다.

핵심 포인트

  • 다수결 투표의 한계를 극복하기 위해 랭킹 기반 접근법 도입
  • LambdaRank 모델을 통한 후보 답변의 정교한 점수 산출
  • 답변 빈도, 의미적 중심성, 추론 흔적 일관성 등 5가지 특징 활용
  • 기존 방식 대비 우수한 정확도-효율성 트레이드오프 달성

자기 일관성 (Self-consistency)은 여러 추론 경로 (reasoning paths)를 샘플링하고 가장 빈번한 답변을 선택함으로써 대규모 언어 모델 (LLM)의 성능을 향상시키지만, 다수결 투표 (majority voting)는 샘플들 사이에 이미 존재하는 정답을 복구하는 데 종종 실패합니다. 우리는 자기 일관성에서의 답변 선택을 랭킹 문제 (ranking problem)로 재정의하는 랭킹 개선 자기 일관성 (Ranking-Improved Self-Consistency, RISC)을 통해 이러한 한계를 해결합니다. RISC는 단일한 불확실성 (uncertainty) 또는 신뢰도 (confidence) 신호에 의존하는 대신, 답변 빈도, 의미적 중심성 (semantic centrality), 그리고 추론 흔적 일관성 (reasoning-trace consistency)을 포착하도록 정교하게 설계된 5가지 특징 (features)을 사용하여 경량 LambdaRank 모델로 후보 답변의 점수를 매깁니다. 우리는 다양한 테스트 시간 예산 (test-time budgets) 하에서 세 가지 데이터셋에 대해 RISC를 평가합니다. 데이터셋 전반에 걸쳐 RISC는 표준 자기 일관성 및 강력한 베이스라인 (baselines)보다 일관되게 더 나은 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 달성하며, 특히 질의응답 (question answering) 벤치마크에서 큰 이득을 보였습니다. 추가 분석 결과, 제안된 특징들은 개별적으로 유용할 뿐만 아니라 더 중요하게는 상호 보완적임을 보여주며, 이는 테스트 시간 답변 선택을 위해 여러 정보성 신호 (informative signals)를 결합하는 법을 학습하는 것의 가치를 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0