Brick: Mixture-of-Models (MoM) 패러다임을 위한 공간 능력 라우팅

쿼리 난이도를 정의하는 것은 배포 엔지니어링에서 가장 어려운 문제 중 하나입니다. 기존의 LLM 라우터들은 도메인 레이블, 키워드, 토큰 수와 같은 표면적 특징에 의존하며, 실제 모델 성공을 결정하는 도메인 내부의 가변성을 무시합니다. Frontier 모델은 로컬 오픈 웨이트 모델보다 10배에서 100배 더 비용이 많이 들기 때문에, 프로덕션 규모에서는 요청당 작은 절약도 직접적인 클라우드 청구서 레버가 됩니다. 우리는 각 모델을 여섯 가지 능력 차원(capability dimensions)으로 점수화하고, 이를 쿼리별 난이도 추정치와 결합하여 비용 페널티가 적용된 기하학적 규칙을 통해 디스패치하는 멀티모달 라우터인 Brick을 제시합니다. 연속적인 선호도 노브를 통해 운영자는 배포 시 최대 품질(max-quality)과 최대 절약(max-saving) 프로파일 사이를 조정할 수 있습니다. 5,504개의 쿼리 벤치마크에서, Brick은 최대 품질 설정에서 76.98%의 정확도를 달성하여 최고의 단일 모델(75.02%)과 테스트된 모든 라우터를 능가했습니다. 중립적인 비용-품질 프로파일에서는, Brick이 가장 강력한 모델을 항상 사용하는 것보다 4.71배 낮은 비용으로 74.11%의 정확도를 달성합니다. 최소 비용 설정에서는 비용을 22.15배 절감하면서 정확도는 11.85점 하락했습니다. 중앙값 지연 시간은 51.2초에서 22.8초로 감소했습니다.

Insights

Brick: Mixture-of-Models (MoM) 패러다임을 위한 공간 능력 라우팅

요약

핵심 포인트

댓글

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기