arXiv논문2026. 05. 28. 11:28

FPMoE: 함수형 코드 생성을 위한 희소 Mixture-of-Experts 접근 방식

요약

함수형 프로그래밍 언어(FPL) 생성 성능을 높이기 위해 설계된 FPMoE 모델을 소개합니다. 언어별 전용 전문가와 공통 패턴을 학습하는 공유 전문가를 결합한 MoE 아키텍처를 통해 언어 간 간섭을 방지하고 추상화 능력을 극대화했습니다.

핵심 포인트

함수형 언어 특화 MoE 아키텍처인 FPMoE 제안
언어별 전용 전문가와 공유 전문가의 결합으로 간섭 해결
3B 활성 파라미터로 대규모 모델과 대등한 성능 달성
Haskell, OCaml, Scala 등 함수형 패턴 포착 최적화

LLM (Large Language Model) 기반 코드 생성 분야의 급격한 발전에도 불구하고, 기존 모델들은 주로 명령형 언어 (Imperative languages)를 중심으로 학습되어 Haskell, OCaml, Scala와 같은 함수형 프로그래밍 언어 (FPLs)는 만성적으로 탐구되지 못한 상태이며, 최첨단 모델 (Frontier models)조차 FPLs에서는 상당히 낮은 성능을 보입니다. 미세 조정 (Fine-tuning)은 자연스러운 해결책이지만, 우리의 실험에 따르면 언어별 미세 조정은 공유된 함수형 추상화 (Functional abstractions)를 포착하는 데 실패하며, 병합된 다국어 미세 조정은 언어 간 간섭 (Cross-language interference)을 유발합니다. 이를 해결하기 위해, 우리는 FPMoE를 소개합니다. FPMoE는 세 개의 언어별 라우팅 전문가 (Haskell, OCaml, Scala를 위한 각각 하나씩)와 모나딕 추론 (Monadic reasoning) 및 타입 지향 프로그래밍 (Type-directed programming)과 같은 언어 간 함수형 패턴을 포착하는 공유 전문가 (Shared expert)를 갖춘 희소 Mixture-of-Experts (MoE) 아키텍처 기반의 경량 오픈 소스 코드 생성 모델입니다. 이 설계는 두 가지 실패 모드를 동시에 해결합니다. 전용 전문가 (Dedicated experts)는 간섭을 제거하고, 공유 전문가는 언어별 모델이 놓치는 추상화를 보존합니다. FPEval에서 FPMoE는 미세 조정된 베이스라인 모델들을 크게 능가하며, 단 3B의 활성 파라미터 (Active parameters)만으로 DeepSeek-Coder-6.7B, Qwen2.5-Coder-14B-Instruct, Qwen3-Coder-30B-A3B를 포함한 훨씬 더 큰 모델들의 성능과 대등한 수준을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

FPMoE: 함수형 코드 생성을 위한 희소 Mixture-of-Experts 접근 방식

요약

핵심 포인트

댓글