REFLEX: LLM 경험으로부터의 성찰적 진화 (Reflective Evolution from LLM Experience)
요약
REFLEX는 LLM을 활용해 해석 가능한 프로그래밍 정책을 진화시키는 새로운 프레임워크입니다. 시각적 진단과 코드 생성을 분리하여 투명한 피드백 루프를 구축하고, 기술 메모리를 통해 지식 전이를 가능하게 합니다.
핵심 포인트
- 시각적 진단(Critic)과 코드 생성(Actor)의 구조적 분리
- 학습이 필요 없는(train-free) 진화 프레임워크 설계
- 기술 메모리를 통한 프로그래밍 지식의 지속적 전이
- Lunar Lander 등 제어 벤치마크에서 탁월한 샘플 효율성 입증
대규모 멀티모달 언어 모델 (Large multimodal language models, LLMs)은 해석 가능한 프로그래밍 정책 (programmatic policies)을 향한 진화적 탐색 (evolutionary search)을 가이드하는 강력한 도구로 등장했습니다. 그러나 기존 프레임워크는 시각적 행동 증거를 해석하고 수정 코드를 합성하는 작업을 동시에 수행하기 위해 단일 모델 호출 (monolithic model call)에 의존합니다. 이러한 진단-수정 결합 (diagnosis-repair entanglement)은 불투명한 피드백 루프를 생성하여, 변이 (mutations) 뒤에 숨겨진 근거를 모호하게 만들고 독립적인 실행 간에 알고리즘적 통찰력을 유지하는 것을 방해합니다. 감사 가능하고 효율적인 정책 탐색을 달성하기 위해, 우리는 시각적 진단 (visual diagnosis)이 코드 생성 (code generation)으로부터 구조적으로 분리되어야 한다고 주장합니다. 우리는 이러한 분리를 실행하는 학습이 필요 없는 (train-free) 진화 프레임워크인 REFLEX를 제시합니다. REFLEX에서 시각 기능이 탑재된 비평가 (Critic)는 먼저 작업 특화된 행동 증거를 구조화되고 감사 가능한 진단 (diagnoses)으로 추출합니다. 그 후, 텍스트에 최적화된 행위자 (Actor)는 이러한 진단과 재사용 가능한 코드 스니펫의 지속적이고 자기 진화하는 기술 메모리 (Skill Memory)를 사용하여 자식 정책 (child policies)을 합성합니다. 이 아키텍처는 투명한 변이 추적을 제공할 뿐만 아니라 실행 간 프로그래밍 지식 전이 (programmatic knowledge transfer)를 가능하게 합니다. 제어 벤치마크 (Lunar Lander, Acrobot, Pendulum) 및 36차원 안테나 어레이 합성 작업에 대한 광범위한 평가 결과, 탁월한 샘플 효율성 (sample efficiency)을 입증했습니다. 특히, REFLEX는 10회 미만의 LLM 호출로 Acrobot과 Pendulum 문제를 해결하며, Lunar Lander에서는 최상의 정규화 가중 점수 (Normalized Weighted Score) 1.092에 도달하여, 투명한 정책의 초기 단계 발견을 크게 가속화하는 동시에 매우 경쟁력 있는 최종 성능을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기