ManimAgent: 시각적 교육을 위한 자기 진화형 멀티모달 에이전트 (Self-Evolving Multimodal Agents for
요약
ManimAgent는 수학 애니메이션 생성을 위해 Manim 라이브러리를 사용하는 자기 진화형 멀티모달 에이전트입니다. 이중 채널 에피소드 메모리 뱅크를 통해 성공 사례와 실패 패턴을 작업 간에 전달하며 지속적으로 성장합니다.
핵심 포인트
- 이중 채널 에피소드 메모리(M+, M-)를 통한 경험 전달
- 가중치 업데이트나 인간의 개입 없는 자기 진화 방식
- VLM을 활용한 렌더링 키프레임 평가 및 피드백 루프
- 메모리 크기 증가에 따른 Pass@1 성능 향상 및 성찰 라운드 감소
다회차 성찰 (Multi-round reflection)은 대규모 언어 모델 (LLM) 기반의 에이전트가 단일 작업 내에서 실패로부터 회복할 수 있게 해주지만, 각 작업은 여전히 고립된 에피소드로 남습니다. 즉, 한 작업에 대한 여러 성찰 라운드를 통해 학습된 교훈은 다음 작업이 시작되기 전에 폐기됩니다. 우리는 코드 생성 작업에서 이러한 격차를 연구합니다. 에이전트는 과학 논문의 섹션으로부터 오픈 소스 Manim 라이브러리를 사용하여 수학 애니메이션을 렌더링하는 Python 코드를 작성합니다. 우리는 가중치 업데이트나 인간의 시드 (human seeds) 없이, 완전히 자체적인 작업 스트림을 통해 성장하는 이중 채널 에피소드 메모리 뱅크 (Episodic Memory Bank)를 통해 성찰 경험을 작업 간에 전달하는 자기 진화형 멀티모달 에이전트인 ManimAgent를 제시합니다. 각 애니메이션이 수렴한 후, 시각-언어 모델 (Vision-Language Model)이 렌더링된 키프레임을 평가합니다. 결과 신호는 성공 근거를 소프트 참조 예시 (soft Reference Examples)로 저장하는 양의 채널 M+와, 검증된 실패 패턴을 하드 알려진 함정 (hard Known Pitfalls)으로 저장하는 음의 채널 M-를 채웁니다. 메모리가 없는 경우, 매칭된 예산의 검색 증강 생성 (RAG), 그리고 셔플된 메모리 베이스라인을 대상으로 한 고정 프로브 평가에서, 메모리 크기가 커짐에 따라 블라인드 인간 Pass@1은 상승하고 성찰 라운드는 감소합니다. 우리는 코드, 동결된 메모리 스냅샷, 그리고 작업 스트림을 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기