본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 16:45

선택하여 사고하기: 지역적 충분성을 통해 SLM 잠재력 해방

요약

본 논문은 소형 언어 모델(SLM)이 대형 언어 모델(LLM)의 추론 능력 격차를 극복하는 새로운 방법인 '지역적 충분성(local sufficiency)'을 제안합니다. 기존 방식들이 외부 LLM 호출이나 표준 지식전달에 의존하여 한계를 겪었던 문제를 해결하기 위해, 이 연구는 LLM의 선택 과정을 SLM이 제시한 후보 순위 내에서의 선택 논리로 재정의하는 'SELECT TO THINK (S2T)' 프레임워크를 도입합니다. 이를 통해 개발된 S2T-LOCAL은 외부 의존성 없이도 자율적인 리랭킹을 수행하며, 벤치마크에서 탐욕적 디코딩 대비 평균 24.1%의 성능 향상을 달성했습니다.

핵심 포인트

  • SLM이 LLM의 추론 능력 격차를 해소하기 위해 '지역적 충분성(local sufficiency)' 개념을 활용합니다.
  • 기존의 외부 LLM 호출 방식은 지연 시간과 비용 문제가 있어, SLM 기반의 선택 논리 재정의가 필요했습니다.
  • 'SELECT TO THINK (S2T)' 프레임워크는 LLM의 역할을 개방형 생성에서 SLM 후보 순위 내에서의 선택으로 단순화합니다.
  • S2T-LOCAL은 외부 의존성 없이 자율적인 리랭킹을 수행하며, 탐욕적 디코딩 대비 8 경로 자기 일관성과 유사한 성능 향상(평균 24.1%)을 보였습니다.

소형 언어 모델 (SLM) 은 확장 가능한 배포를 위한 계산 효율성을 제공하지만, 종종 더 큰 대안인 대형 언어 모델 (LLM) 이 보여주는 추론 능력에 미치지 못합니다. 이 격차를 완화하기 위해 현재의 접근 방식은 추론 분기점에서 토큰을 생성하기 위해 LLM 을 호출하지만, 이러한 외부 호출은 상당한 지연 시간과 비용을 초래합니다. 대안으로, 표준 지식전달 (distillation) 은 종종 SLM 이 LLM 의 복잡한 생성 분포를 정확하게 모방하는 데 어려움을 겪는 용량 제한으로 인해 방해받습니다. 우리는 이 딜레마를 해결하기 위해 '지역적 충분성 (local sufficiency)'을 식별합니다: 분기점에서 LLM 의 선호 토큰은 SLM 의 상위 K 개 다음 토큰 예측 내에 일관되게 존재하며, 심지어 SLM 의 1 순위 선택으로 나타나지 않을 때도 그렇습니다. 따라서 우리는 LLM 의 역할을 개방형 생성에서 SLM 의 제안들 간의 선택으로 재정의하는 SELECT TO THINK (S2T) 를 제안합니다. 이는 감독 신호를 이산적 후보 순위로 단순화합니다. 이를 활용하여 우리는 SLM 에 선택 논리를 지식전달하여 추론 시점의 LLM 의존성 없이도 자율적인 리랭킹을 수행할 수 있도록 하는 S2T-LOCAL 을 소개합니다. 경험적으로, 우리는 15 억 파라미터 (1.5B) 의 SLM 의 상위 8 개 후보가 320 억 파라미터 (32B) 의 LLM 의 선택을 95% 의 히트율로 포착함을 입증했습니다. 이러한 잠재력을 성능으로 전환한 결과, S2T-LOCAL 은 벤치마크 전반에 걸쳐 탐욕적 디코딩 (greedy decoding) 을 평균 24.1% 개선하여 단일 경로 효율성으로 작동하면서도 8 경로 자기 일관성 (self-consistency) 의 효과와 실질적으로 맞춥니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0