Levi: 로컬 Qwen 30B에서 AlphaEvolve 실행하기

요약

AlphaEvolve 스타일의 오픈 소스 시스템인 LEVI를 소개합니다. LEVI는 적절한 탐색 아키텍처를 통해 소형 모델로도 대형 모델을 능가하는 성능을 내며, 기존 프레임워크 대비 비용을 최대 35배 절감할 수 있습니다.

핵심 포인트

탐색 아키텍처 최적화를 통해 소형 모델의 효율성 극대화
코드 및 프롬프트 최적화 두 가지 핵심 기능 제공
기존 프레임워크 대비 최대 35배 저렴한 비용과 높은 성능
솔루션 다양성 유지 및 스마트한 모델 라우팅 전략 사용
vLLM과 TPU를 활용한 효율적인 로컬 모델 서빙 구현

안녕하세요 r/LocalLLaMA 여러분, 제가 흥분되는 소식을 하나 공유하고 싶습니다. 저는 1년 넘게 AlphaEvolve와 그 결과물에 매료되어 왔지만, 오픈 소스 프레임워크를 실행하는 것은 비용이 빠르게 상승합니다. 무언가를 시도할 때마다 수백 번의 GPT-5 또는 Claude Opus 호출을 감당할 여력이 없으며, 다양한 도메인에 걸쳐 여러 번 실행해보고 싶었습니다. 만약 훨씬 더 저렴하게, 게다가 더 나은 성능까지 갖춘 그런 능력을 얻을 수 있다면 어떨까요? 지난 6개월 동안 저는 기존 오픈 소스 프레임워크보다 훨씬 적은 비용(최대 35배 저렴)으로 더 뛰어난 성능을 내는 AlphaEvolve 스타일의 오픈 소스 시스템인 LEVI를 개발해 왔습니다. 저는 주로 자체 호스팅된 Qwen3-30B-A3B로 실행해 왔지만, 호스팅된 API나 Claude Code / Codex 구독 등 여러분이 접근 가능한 무엇이든으로도 작동합니다. LEVI는 가장 큰 차이를 만들 수 있다고 느낀 두 가지 형태, 즉 코드 최적화(code optimization)와 프롬프트 최적화(prompt optimization)로 제공됩니다 (수학 분야는 미안하지만, 코드 경로를 통해 해결 가능한 간접적인 경로를 갖게 되었습니다). LEVI의 핵심 논지는 적절한 탐색 아키텍처(search architecture)가 있다면 더 작은 모델이 더 큰 모델을 대체하거나 능가할 수 있다는 것입니다. 이는 대부분의 작업에 작은 모델을 활용하는 것이 훨씬 더 경제적임을 의미합니다. 이것이 핵심 요지입니다. 이를 실제로 구현하는 것은 별개의 문제이지만, 이 게시물의 다른 모든 것을 잊더라도 제가 정말 전달하고 싶은 메시지는 바로 이것입니다. LEVI는 세 가지 방식으로 이를 수행합니다: 처음부터 솔루션의 다양성(solution diversity)에 투자하고 이를 유지합니다. 우리는 동일한 솔루션으로 수렴하는 것을 원하지 않으며, 특히 작은 모델이 섞여 있을 때 대형 모델에 의존하여 저점(basin)에서 빠져나와야 하는 상황을 피하고 싶습니다. 대형 모델과 소형 모델 간의 더 스마트한 라우팅(routing) (대부분의 변이(mutation)는 프런티어 모델(frontier model)을 건드릴 필요가 없습니다). 프롬프트 최적화의 경우, 모든 롤아웃(rollout)이 똑같이 중요한 것은 아니므로 전체 점수를 근사화할 수 있는 프록시 하위 집합(proxy subset)을 구축합니다.

저는 ADRS (시스템 벤치마크) 스위트의 시스템 문제들에 LEVI를 적용해 보았습니다: MoE 전문가 병렬 부하 분산 문제 (EPLB, DeepSeek이 오픈소스로 공개한 것), 데이터베이스 트랜잭션 스케줄링, LLM 기반 SQL, 그리고 스팟 인스턴스 (spot-instance) 스케줄링입니다. LEVI는 제가 던져준 거의 모든 문제에서 기존 프레임워크보다 뛰어난 성능을 보였으며, 일관되게 더 적은 예산(최대 7배 더 저렴함)을 사용했습니다. 더 명확한 비교를 위해: 모든 프레임워크에 동일한 단일 Qwen3-30B-A3B 모델과 동일한 평가 예산을 부여했을 때도 LEVI는 여전히 승리했으며, 다른 모델들의 점수에 도달하는 데 최대 12배 적은 평가 (evals) 횟수만을 사용했습니다. 즉, 이 이점은 더 큰 모델이 아니라 탐색 아키텍처 (search architecture)에서 기인합니다. 프롬프트 최적화 (prompt optimization) 측면에서도 IFBench 및 HotpotQA와 같은 문제들에 대해 LEVI는 GEPA보다 절반 미만의 롤아웃 (rollouts)을 사용하면서도 유사하거나 더 나은 점수에 도달했습니다. 인프라 측면에서, 이 서브레딧 분들이 관심을 가질 수 있어 덧붙이자면: 저는 Google의 TPU Research Cloud (TRC) 그랜트를 통해 받은 무료 컴퓨팅 자원을 사용하여, TPU 상에서 vLLM으로 Qwen3-30B를 직접 서빙했으며, 이를 일반적인 OpenAI 호환 엔드포인트로 노출했습니다. 어떤 질문이든 환영하며 제안도 기꺼이 받겠습니다. 만약 이런 도구가 필요할 만한 예상치 못한 분야나 니치(niche)한 영역이 있다면 꼭 알려주시기 바랍니다. 기술 블로그: https://ttanv.github.io/levi/ GitHub: https://github.com/ttanv/levi /u/Longjumping-Music638님이 r/LocalLLaMA에 제출함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Levi: 로컬 Qwen 30B에서 AlphaEvolve 실행하기

요약

핵심 포인트

댓글