SIGA: 과학적 시뮬레이션을 위한 자기 진화형 코딩 에이전트 어댑터
요약
SIGA는 과학 시뮬레이터의 특화된 입력 언어를 학습하기 위해 코딩 에이전트에 인터페이스 그라운딩을 제공하는 어댑터입니다. 검색, 절차적 메모리, 궤적 내 검증 기술을 통해 전문가 수준의 시뮬레이션 설정을 인간보다 약 36배 빠르게 생성합니다.
핵심 포인트
- SIGA는 시뮬레이터의 어휘, 구조, 검증 규칙을 에이전트에 학습시킴
- GEOS 시뮬레이터에서 인간 전문가와 유사한 성능을 36배 빠른 속도로 달성
- 자기 진화(Self-evolution) 메커니즘을 통해 이전 궤적으로부터 성능 지속 개선
- 병목 현상에 따라 검증, 메모리, 검색의 중요도가 달라짐을 입증
첨단 과학 시뮬레이터(Scientific simulators)는 시뮬레이션 목표를 실행 가능한 설정(Configurations)으로 변환하는 특화된 입력 언어를 노출하지만, 이를 학습하는 데 도메인 과학자들은 몇 시간에서 며칠의 시간을 소비할 수 있습니다. 우리는 시뮬레이터 설정을 에이전트-도구 인터페이스 그라운딩(Agent-tool interface grounding) 문제로 연구합니다: 기성 코딩 에이전트(Off-the-shelf coding agent)가 실제 과학 소프트웨어를 작동시키기 위해 필요한 최소한의 시뮬레이터 특화 적응(Adaptations)은 무엇인가? 우리의 직관은 코딩 에이전트가 이미 파일을 탐색하고, 코드를 편집하며, 명령어를 실행하고, 출력을 수정하는 방법을 알고 있지만, 시뮬레이터의 실행 가능한 계약(Executable contract), 즉 어휘(Vocabulary), 구조적 제약(Structural constraints), 검증 규칙(Validation rules), 종료 조건(Termination conditions)이 부족하다는 것입니다. 우리는 검색(Retrieval), 절차적 메모리(Procedural memory), 궤적 내 검증(In-trajectory validation), 그리고 검증 강제 종료(Validation-enforced termination)를 통해 이 계약을 제공하는 시뮬레이터 인터페이스 그라운딩 어댑터(Simulator-Interface Grounding Adapter)인 SIGA를 소개합니다. 우리는 주로 지하 과학(Subsurface science)에 사용되는 오픈 소스 다물리 시뮬레이터(Multiphysics simulator)인 GEOS를 통해 SIGA를 평가합니다. SIGA는 약 5분 만에 완전한 GEOS 덱(Deck)을 생성하며 0.90 이상의 TreeSim을 기록했는데, 이는 약 3시간이 소요된 확장된 예산의 인간 전문가와 일치하는 결과로, 실제 시간(Wall-clock) 기준으로 약 36배의 속도 향상을 보여줍니다. 더 어려운 홀드아웃 세트(Held-out set)에서 그라운딩(Grounding)은 TreeSim을 0.720에서 0.789로 높였으며, 이는 순수 에이전트 대비 약 10%의 상대적 이득이며, 시드 간 표준 편차를 16배 줄일 수 있습니다. 자기 진화(Self-evolution)는 이전 궤적(Trajectories)으로부터 어댑터 내용을 재작성함으로써 SIGA를 더욱 개선하며, 가장 높은 홀드아웃 GEOS 평균을 달성하고 가장 강력한 수동 설계 구성(Hand-designed configuration)과 일치하거나 이를 능가합니다. OpenFOAM 및 LAMMPS로의 전이(Transfers) 결과, 지배적인 메커니즘은 인터페이스에 따라 변화함을 보여줍니다: 구조적 완전성(Structural completeness)이 병목 현상일 때는 검증(Validation)이 가장 중요하며, 도메인 정확성(Domain correctness)이 병목 현상일 때는 메모리(Memory)와 검색(Retrieval)이 가장 중요합니다. 이러한 결과는 가볍고 자기 개선이 가능한 그라운딩 레이어(Grounding layers)가 일반 코딩 에이전트를 과학 소프트웨어의 실용적인 운영자로 전환할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기