arXiv중요논문2026. 04. 24. 04:44

트렁케이션된 디코딩 트리를 활용한 효율적인 추론: DLE 제안

요약

Self-consistency는 여러 추론 경로를 샘플링하고 투표하여 성능을 높이지만, 수학이나 코딩 같은 제한된 도메인에서는 중복 샘플링으로 인해 계산 효율성이 떨어집니다. 본 논문은 이러한 문제를 해결하기 위해 'Distinct Leaf Enumeration (DLE)'이라는 결정론적 디코딩 방법을 제안합니다. DLE는 부분적으로 잘린(truncated) 디코딩 트리를 탐색할 때, 중복 샘플링 대신 고유한 리프 노드를 체계적으로 열거하여 추론 효율성을 높입니다. 이 방법은 기존의 확률적 자가 일관성(stochastic self-

핵심 포인트

Self-consistency는 병렬 추론 경로 샘플링 및 투표를 통해 성능을 향상시키지만, 중복 탐색으로 인해 계산 비용이 높습니다.
제안된 DLE (Distinct Leaf Enumeration)은 부분적으로 잘린 디코딩 트리를 결정론적으로 탐색하여 고유한 리프 노드를 체계적으로 열거합니다.
DLE는 기존 방식 대비, 동일한 예산 내에서 이전에 방문하지 않은 고확률 분기(branch)를 탐색하여 커버리지를 높입니다.
실험 결과, DLE는 확률적 자가 일관성보다 더 높은 품질의 추론 경로를 찾아내어 수학, 코딩 및 일반 추론 작업에서 우수한 성능을 보였습니다.

최근 대규모 언어 모델(LLM)의 추론 성능 향상 기법 중 하나로 'Self-consistency'가 주목받고 있습니다. 이 방법은 여러 개의 독립적인 추론 경로를 병렬적으로 샘플링하고, 그 결과들을 투표(voting)하여 최종 출력을 결정하는 방식입니다. 이는 모델이 하나의 오류에 의존하지 않고 견고한 결론을 도출하도록 돕습니다.

하지만 수학이나 코딩처럼 정답의 구조가 명확하거나 제약된 도메인에서는 Self-consistency 전략이 계산적으로 비효율적이라는 문제가 발생합니다. 그 이유는 샘플링 과정에서 '중복 샘플링(sampling with replacement)'을 수행하기 때문에, 이미 높은 확률로 탐색했던 접두사(prefix)나 완성된 결과가 반복적으로 재방문되어 불필요한 연산이 반복되기 때문입니다.

본 논문은 이러한 비효율성을 해결하기 위해 'Distinct Leaf Enumeration (DLE)'이라는 결정론적 디코딩 방법을 제안합니다. DLE는 부분적으로 잘린(truncated) 샘플링 과정을 마치 가지치기된(pruned) 디코딩 트리를 순회하는 것으로 간주하고, 중복 샘플링 대신 고유한 리프 노드(distinct leaves)를 체계적으로 열거하는 방식을 취합니다. 이 접근 방식은 추론 효율성을 두 가지 측면에서 개선합니다.

첫째, 알고리즘적 관점에서는 고정된 계산 예산(fixed budget) 내에서 기존에 탐색하지 않았던 고확률 분기(high-probability branches)를 탐험함으로써 검색 공간의 커버리지(coverage)를 높입니다. 즉, 단순히 여러 번 시도하는 것이 아니라, 놓쳤던 다양한 가능성을 체계적으로 찾아낸다는 의미입니다.

둘째, 시스템적 관점에서는 공유되는 접두사(shared prefixes)를 재사용하고 중복적인 토큰 생성을 줄여 전반적인 연산 부하를 감소시킵니다.

실험 결과는 DLE의 우수성을 명확히 보여줍니다. DLE가 탐색하는 추론 경로는 확률적 자가 일관성(stochastic self-consistency)이 생성하는 경로보다 더 높은 품질을 가지며, 그 결과 수학, 코딩 및 일반적인 추론 작업 전반에서 성능 개선을 입증했습니다. 이는 LLM의 신뢰성과 효율성을 동시에 확보할 수 있는 중요한 진전입니다.

AI 자동 생성 콘텐츠

원문 바로가기

트렁케이션된 디코딩 트리를 활용한 효율적인 추론: DLE 제안

요약

핵심 포인트

댓글