EngiAI: LLM 기반 엔지니어링 설계를 위한 멀티 에이전트 프레임워크 및 벤치마크 스위트
요약
EngiAI는 엔지니어링 설계 작업을 위해 설계된 멀티 에이전트 프레임워크이자 벤치마크 스위트입니다. 이 시스템은 LangGraph를 기반으로 7개의 전문 에이전트를 관리자 아키텍처로 조정하며, 워크플로 벤치마크, RAG 벤치마크, HPC 벤치마크라는 세 가지 차원의 평가를 제공합니다. 실험 결과, 폐쇄형 모델이 오픈 소스 모델보다 높은 성능을 보였으며, 조건부 분기와 다단계 지시 수행 능력이 복잡한 엔지니어링 워크플로의 핵심 과제임을 확인했습니다.
핵심 포인트
- LangGraph 기반의 관리자 아키텍처를 통해 7개의 전문화된 에이전트를 조정하는 EngiAI 프레임워크 제안
- 워크플로, RAG, HPC 오케스트레이션을 포함하는 세 가지 차원의 엔지니어링 특화 벤치마크 스위트 구축
- 폐쇄형 모델이 오픈 소스 4B 모델 대비 월등한 작업 완료율을 기록하며 세대적 성능 차이 입증
- 조건부 분기(Conditional Branching)와 장기 실행 워크플로에서의 다단계 지시 수행 능력이 모델 성능의 주요 병목 구간임
대규모 언어 모델 (LLM) 에이전트가 엔지니어링 설계 작업에 점점 더 많이 적용되고 있지만, 기존의 평가 프레임워크는 시뮬레이션, 검색(Retrieval), 제조 준비를 결합하는 멀티 에이전트 시스템 (Multi-Agent Systems)을 적절히 다루지 못하고 있습니다. 우리는 세 가지 평가 차원을 가진 벤치마크 스위트를 소개합니다: (1) 직접적인 도구 사용, 의미적 모호성 해소 (Semantic Disambiguation), 조건부 분기 (Conditional Branching), 작업 메모리 (Working-memory) 작업을 포함하여 서로 다른 인지적 요구 사항을 목표로 하는 7가지 프롬프트 스타일의 워크플로 벤치마크; (2) 매개변수 선택에 대한 검색 기여도를 격리하여 점수를 매기는 게이트형 스코어링 (Gated Scoring) 방식의 검색 증강 생성 (RAG) 벤치마크; (3) SLURM 클러스터 상에서 엔드 투 엔드 (End-to-end) 머신러닝 (ML) 학습 오케스트레이션을 평가하는 고성능 컴퓨팅 (HPC) 벤치마크입니다. 이 벤치마크와 함께, 우리는 LangGraph를 기반으로 구축된 멀티 에이전트 시스템 (MAS) 참조 구현체인 EngiAI를 제시합니다. EngiAI는 관리자 아키텍처 (Supervisor Architecture)를 통해 7개의 전문화된 에이전트를 조정함으로써 벤치마크를 실행하며, 위상 최적화 (Topology Optimization), 문서 검색, HPC 작업 오케스트레이션, 3D 프린터 제어를 통합합니다. 4개의 LLM 백엔드와 2개의 EngiBench 문제를 대상으로 실험한 결과, 폐쇄형 모델 (Proprietary Models)은 Beams2D에서 평균 96-97%의 작업 완료율을 달성한 반면, 오픈 소스 4B 파라미터 모델은 55-78%에 도달하여 명확한 세대적 개선을 보여주었습니다. 조건부 분기 (Conditional Branching)가 가장 어려운 것으로 나타났으며, Photonics2D의 조건부 스타일에서는 작업 완료율이 20-53%로 떨어졌습니다. RAG 게이팅 실험 결과, 검색이 없을 때의 점수가 거의 0에 가까운 것에 비해 검색 증강 점수는 거의 완벽한 점수($\approx 1.0$)를 기록하여 평가 설계의 타당성을 입증했습니다. HPC 오케스트레이션의 경우, 한 모델은 모든 파이프라인 단계를 100%의 실행 횟수에서 완료한 반면, 다른 모델은 50%로 떨어졌으며, 이는 다단계 지시 수행 (Multi-step Instruction Following) 능력이 장기 실행 워크플로에서 저하됨을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기