arXiv논문2026. 05. 04. 19:57

혼합 모델 관점에서 LLM 앙상블 재고: Mixture-model-like Ensemble (ME)

요약

본 논문은 LLM 앙상블의 성능 향상 잠재력을 인정하면서도, 전통적인 방식이 수반하는 높은 계산 비용 문제를 해결하기 위해 '혼합 모델과 유사한 앙상블(ME)'을 제안합니다. ME는 전체 앙상블 분포를 명시적으로 계산할 필요 없이, 토큰 생성 단계마다 확률적으로 단일 모델을 선택하여 사용하는 방식으로 작동합니다. 이 접근 방식은 기존 앙상블 방법과 수학적으로 동등하면서도 호출 비용을 크게 줄여 효율성을 높입니다.

핵심 포인트

LLM 앙상블은 성능 향상을 위한 유망한 기법이지만, 전통적인 구현은 높은 계산 비용(여러 포워드 패스)이 발생합니다.
제안된 ME (Mixture-model-like Ensemble)는 앙상블을 혼합 모델 관점에서 재해석하여 효율성을 높입니다.
ME는 전체 분포를 계산하는 대신, 토큰 생성 시점에 확률적으로 단일 모델을 선택함으로써 작동합니다.
이 방법은 기존 앙상블 대비 호출 비용을 크게 절감(1.78배~2.68배 빠름)하면서도 성능적 동등성을 유지합니다.
ME의 관점은 LLM 앙상블과 토큰 레벨 라우팅 방법을 연결하며, 후자가 전자의 특수한 경우임을 시사합니다.

모델 앙상블은 머신러닝 모델의 성능 향상을 위한 잘 확립된 기법입니다. 일반적으로 이는 여러 모델의 출력 분포를 평균화하고 가장 유력한 라벨을 선택하는 것을 포함합니다. 이 아이디어는 자연스럽게 대형 언어 모델 (LLM) 로 확장되어 향상된 성능을 제공하지만 상당한 계산 비용을 수반합니다. 이러한 비효율은 LLM 에 직접적인 전통적인 앙상블 구현을 적용함으로써 발생하며, 각 모델에 대해 명시적으로 앙상블 분포를 계산하기 위해 별도의 포워드 패스를 필요로 합니다.

이 논문에서는 혼합 모델과 유사한 앙상블 (ME) 을 제안합니다. 앙상블을 혼합 모델로 재해석하여, ME 는 다음 토큰을 생성하는 단계마다 확률적으로 단일 모델을 선택하며, 명시적으로 전체 앙상블 분포를 계산할 필요가 없게 됩니다. ME 는 앙상블 분포에서 샘플링하는 것과 수학적으로 동등하지만, 하나의 모델만 호출하므로 전통적인 앙상블보다 1.78 배~2.68 배 빠릅니다.

또한, 이 관점은 LLM 앙상블과 토큰 레벨 라우팅 방법을 연결하며, LLM 앙상블이 라우팅 방법의 특수한 경우임을 시사합니다. 우리의 발견은 효율적인 LLM 앙상블을 위한 새로운 길을 열며, LLM 의 토큰 레벨 라우팅 전략에 대한 추가 탐구를 동기화합니다. 코드 는 https://github.com/jialefu/Mixture-model-like-Ensemble/ 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

혼합 모델 관점에서 LLM 앙상블 재고: Mixture-model-like Ensemble (ME)

요약

핵심 포인트

댓글