arXiv논문2026. 05. 06. 16:44

언제 생각할 것인가, 언제 말할 것인가: LLM 추론을 위한 공개 정책 학습

요약

이 기술 기사는 LLM 추론 과정에서 '공개 타이밍'을 조절 가능한 결정으로 만드는 새로운 방법인 Side-by-Side (SxS) Interleaved Reasoning을 제안합니다. 기존의 자동 회귀 생성 방식은 토큰 하나하나가 비가역적인 공개적 약속을 구성하여, 추가적인 고찰이 지연되거나 초기 스트리밍에 편향될 위험(침묵세금)을 초래했습니다. SxS는 부분적인 공개와 지속적인 사적 추론을 교차시키면서도, 현재까지의 추론에 의해 '지원'될 때만 콘텐츠를 방출하여 이 문제를 해결합니다.

핵심 포인트

SxS (Side-by-Side Interleaved Reasoning)는 LLM이 추론하는 과정에서 공개와 비공개 사적 사고 과정을 교차시키는 새로운 프레임워크입니다.
기존의 자동 회귀 생성 방식은 '침묵세금(silence tax)' 문제를 야기하는데, 이는 추가적인 고찰이 지연되거나 초기 스트리밍에 편향을 일으키는 약속의 위험 때문입니다.
SxS는 콘텐츠를 방출할 때 현재까지의 추론 과정에 의해 명시적으로 '지원'될 때만 가능하도록 설계되어 안정성을 높였습니다.
제안된 방법은 SFT와 RL을 통해 이중 행동 의미론(dual-action semantics)을 학습하고, 다양한 벤치마크에서 정확도와 콘텐츠 지연 간의 파레토 트레이드오프를 개선했습니다.

단일 스트림 자동 회귀 인터페이스에서 동일한 토큰은 모델 상태를 업데이트하고 동시에 비가역적인 공개적 약속을 구성합니다. 이러한 결합은 “침묵세금 (silence tax)”을 생성합니다: 추가적인 고찰은 첫 번째 ‘작업 관련’ 콘텐츠를 지연시키며, 단순한 초기 스트리밍은 후속 생성에 편향을 일으키는 선제적 약속의 위험을 초래합니다. 우리는 표준 자동 회귀 생성 내에서 ‘공개 타이밍’을 조절 가능한 결정으로 만드는 extbf{ extbf{Side-by-Side (SxS)}} Interleaved Reasoning 을 소개합니다. SxS 는 동일한 컨텍스트에서 부분적인 공개와 지속적인 사적 추론을 교차시키지만, 현재까지의 추론에 의해 ‘지원’될 때만 콘텐츠를 방출합니다. 채워지는 내용을 유도하지 않고 이러한 속도를 학습하기 위해, 답변 접두사를 지원 추론 접두사와 매칭하여 엔테일먼트 정렬된 교차 경로를 구성한 후 SFT 로 이중 행동 semantics 를 습득하고 RL 으로 새로운 형식 하에서 추론 성능을 회복합니다. Qwen3 아키텍처/스케일 2 개 (MoE extbf{Qwen3-30B-A3B}, dense extbf{Qwen3-4B}) 와 in-domain (AIME25) 및 out-of-domain (GPQA-Diamond) 벤치마크 모두에서, SxS 는 토큰 수준의 대안 (예: 인터 업데이트 대기 시간) 하에 정확도--‘콘텐츠-지연’ 파레토 트레이드오프를 개선합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언제 생각할 것인가, 언제 말할 것인가: LLM 추론을 위한 공개 정책 학습

요약

핵심 포인트

댓글