arXiv논문2026. 06. 09. 10:54

레거시 과학 코드를 미분 가능한 프레임워크로의 체계적인 LLM 번역: 지표면 모델(Land Surface Model)에 대한 적용

요약

레거시 Fortran 과학 코드를 JAX 기반의 미분 가능한 프레임워크로 자동 변환하는 5단계 LLM 에이전트 파이프라인을 제안합니다. CLM-ml-v2 모델에 적용한 결과, 수치적 정확성을 유지하면서도 물리적 파라미터 복구 속도와 실행 시간을 획기적으로 개선했습니다.

핵심 포인트

LLM 에이전트를 활용한 Fortran-to-JAX 자동 번역 파이프라인 구축
정적 의존성 분석 및 컴파일-수정 루프를 통한 자율적 오류 수정
기존 방식 대비 물리 파라미터 복구 단계 8배 단축
순차적 Fortran 대비 실제 실행 시간 24배 단축 달성

미분 가능한 프로그래밍 (Differentiable programming)은 경사 기반 (gradient-based) 파라미터 추정, 민감도 분석 (sensitivity analysis), 그리고 데이터 동화 (data assimilation)를 가능하게 함으로써 과학적 모델링에 혁신적인 역량을 제공합니다. 그러나 레거시 코드베이스 (legacy codebases)를 미분 가능한 프레임워크 (differentiable frameworks)로 마이그레이션하는 것은 여전히 과제로 남아 있습니다. 본 연구에서는 레거시 Fortran 코드를 JAX로 번역하는 5단계 LLM 기반 에이전트 파이프라인 (agentic pipeline)을 제시합니다. 정적 의존성 분석 (static dependency analysis)을 통해 전체 호출 그래프 (call graph)로부터 모듈 번역 순서를 결정하며, 반복적인 컴파일-수정 루프 (compile-repair loops)가 오류를 자율적으로 수정합니다. 또한, Fortran 참조 오라클 (reference oracle)은 통합 및 경사 검증 (gradient verification) 이전에 모듈 수준에서 수치적 동일성 (numerical parity)을 강제합니다. 우리는 19,000행의 Fortran 지표면 모델 (land surface model)인 CLM-ml-v2에 이 파이프라인을 구현하여 평가하였으며, 73개의 모듈 번역 작업에 걸친 에이전트의 행동을 분석했습니다. 결과적으로 생성된 미분 가능한 모델은 단 한 번의 역전파 패스 (backward pass)로 전체 자코비안 (Jacobian)을 계산하며, 경사 미사용 최적화 (gradient-free optimization)보다 8배 적은 단계로 물리적 파라미터를 복구하고, 앙상블 크기 N=2,048에서 순차적 Fortran 대비 24배의 실제 실행 시간 (wall-clock) 단축을 달성했습니다. 번역된 모델과 파이프라인 인프라 모두 다른 지구 시스템 모델 (Earth system model) 구성 요소들을 미분하기 위한 재사용 가능한 프레임워크로 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

레거시 과학 코드를 미분 가능한 프레임워크로의 체계적인 LLM 번역: 지표면 모델(Land Surface Model)에 대한 적용

요약

핵심 포인트

댓글