arXiv논문2026. 06. 16. 12:13

최소한의 레이블로 LLM 추론 확장하기: 경량 검증기를 활용한 준지도 학습 프레임워크

요약

최소한의 레이블로 LLM의 추론 능력을 확장하는 준지도 학습 프레임워크를 제안합니다. 경량 검증기와 엔트로피 기반 필터링을 통해 고신뢰도 추론 흔적을 선별하여 모델을 미세 조정합니다.

핵심 포인트

경량 추론-정확성 분류기를 통한 데이터 생성 메커니즘 전환
엔트로피 기반 임계값으로 신뢰할 수 없는 샘플 필터링
수학 및 시각적 프로그래밍 작업에서 높은 성능 입증
기존 방식 대비 10~15배 적은 레이블로 대등한 정확도 달성

대규모 언어 모델 (LLMs)의 발전을 위해, 최근 의사 중간 추론 (pseudo intermediate reasoning)을 생성하는 접근 방식들이 놀라운 진전을 보여주었습니다. 하지만 이러한 방식들은 일반적으로 추론 품질을 평가하기 위해 정확하게 주석이 달린 방대한 양의 정답에 의존합니다. 본 논문은 최소한의 감독으로부터 추론 학습을 확장하는 준지도 학습 (semi-supervised) 프레임워크를 제시하며, 추론 검증 자체를 데이터 생성 메커니즘으로 전환합니다. 우리는 단 몇 개의 레이블이 지정된 샘플만으로 LLM이 생성한 중간 추론 흔적 (reasoning traces)이 유효한지 판단하는 경량 추론-정확성 분류기 (reasoning-correctness classifier)를 학습시킵니다. 나아가, 엔트로피 기반의 신뢰도 임계값 (entropy-based confidence threshold)을 통해 신뢰할 수 없는 샘플을 필터링하며, 남은 고신뢰도 추론 흔적들은 모델을 미세 조정 (fine-tune)하는 데 사용됩니다. 검증 가능한 수학 문제 (Verifiable Math Problems, Orca-Math 서브셋) 및 시각적 프로그래밍을 이용한 이미지 장면 그래프 질의응답 (Question Answering on Image Scene Graphs, GQA)에 대한 실험 결과, 우리의 방법론은 10~15배 더 많은 레이블 데이터를 사용하는 것과 대등한 정확도를 달성함을 보여줍니다. 절제 연구 (Ablation analyses)를 통해 분류기와 엔트로피 필터링 모두가 확장 가능하고 노이즈에 강한 의사 레이블링 (pseudo-labeling)을 위해 필수적임을 확인했습니다. 비용이 많이 드는 정답 수준의 감독을 경량 추론 검증으로 대체함으로써, 우리의 방법은 대규모 추론 자원을 구축하기 위한 실질적인 경로를 제공하며, 최소한의 인간 입력으로부터 학습하는 미래의 자율 추론 시스템을 위한 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

최소한의 레이블로 LLM 추론 확장하기: 경량 검증기를 활용한 준지도 학습 프레임워크

요약

핵심 포인트

댓글