arXiv논문2026. 04. 30. 16:45

선택하여 사고하기: 지역적 충분성을 통해 SLM 잠재력 해방

요약

본 논문은 소형 언어 모델(SLM)이 대형 언어 모델(LLM)의 추론 능력 격차를 극복하는 새로운 방법인 '지역적 충분성(local sufficiency)'을 제안합니다. 기존 방식들이 외부 LLM 호출이나 표준 지식전달에 의존하여 한계를 겪었던 문제를 해결하기 위해, 이 연구는 LLM의 선택 과정을 SLM이 제시한 후보 순위 내에서의 선택 논리로 재정의하는 'SELECT TO THINK (S2T)' 프레임워크를 도입합니다. 이를 통해 개발된 S2T-LOCAL은 외부 의존성 없이도 자율적인 리랭킹을 수행하며, 벤치마크에서 탐욕적 디코딩 대비 평균 24.1%의 성능 향상을 달성했습니다.

핵심 포인트

SLM이 LLM의 추론 능력 격차를 해소하기 위해 '지역적 충분성(local sufficiency)' 개념을 활용합니다.
기존의 외부 LLM 호출 방식은 지연 시간과 비용 문제가 있어, SLM 기반의 선택 논리 재정의가 필요했습니다.
'SELECT TO THINK (S2T)' 프레임워크는 LLM의 역할을 개방형 생성에서 SLM 후보 순위 내에서의 선택으로 단순화합니다.
S2T-LOCAL은 외부 의존성 없이 자율적인 리랭킹을 수행하며, 탐욕적 디코딩 대비 8 경로 자기 일관성과 유사한 성능 향상(평균 24.1%)을 보였습니다.

소형 언어 모델 (SLM) 은 확장 가능한 배포를 위한 계산 효율성을 제공하지만, 종종 더 큰 대안인 대형 언어 모델 (LLM) 이 보여주는 추론 능력에 미치지 못합니다. 이 격차를 완화하기 위해 현재의 접근 방식은 추론 분기점에서 토큰을 생성하기 위해 LLM 을 호출하지만, 이러한 외부 호출은 상당한 지연 시간과 비용을 초래합니다. 대안으로, 표준 지식전달 (distillation) 은 종종 SLM 이 LLM 의 복잡한 생성 분포를 정확하게 모방하는 데 어려움을 겪는 용량 제한으로 인해 방해받습니다. 우리는 이 딜레마를 해결하기 위해 '지역적 충분성 (local sufficiency)'을 식별합니다: 분기점에서 LLM 의 선호 토큰은 SLM 의 상위 K 개 다음 토큰 예측 내에 일관되게 존재하며, 심지어 SLM 의 1 순위 선택으로 나타나지 않을 때도 그렇습니다. 따라서 우리는 LLM 의 역할을 개방형 생성에서 SLM 의 제안들 간의 선택으로 재정의하는 SELECT TO THINK (S2T) 를 제안합니다. 이는 감독 신호를 이산적 후보 순위로 단순화합니다. 이를 활용하여 우리는 SLM 에 선택 논리를 지식전달하여 추론 시점의 LLM 의존성 없이도 자율적인 리랭킹을 수행할 수 있도록 하는 S2T-LOCAL 을 소개합니다. 경험적으로, 우리는 15 억 파라미터 (1.5B) 의 SLM 의 상위 8 개 후보가 320 억 파라미터 (32B) 의 LLM 의 선택을 95% 의 히트율로 포착함을 입증했습니다. 이러한 잠재력을 성능으로 전환한 결과, S2T-LOCAL 은 벤치마크 전반에 걸쳐 탐욕적 디코딩 (greedy decoding) 을 평균 24.1% 개선하여 단일 경로 효율성으로 작동하면서도 8 경로 자기 일관성 (self-consistency) 의 효과와 실질적으로 맞춥니다.

AI 자동 생성 콘텐츠

원문 바로가기

선택하여 사고하기: 지역적 충분성을 통해 SLM 잠재력 해방

요약

핵심 포인트

댓글