코딩 LLM 내의 암시적 소프트웨어 월드 모델(Software World Models) 평가를 향하여
요약
코딩 LLM이 소프트웨어의 동작 원리를 이해하는 '소프트웨어 월드 모델' 능력을 평가하는 새로운 방법론을 제안합니다. 기존의 제어 흐름 중심 평가를 넘어 실행 리소스, 메모리, 실행 시간 등을 예측하는 능력을 측정하며, 현재 모델들이 실행 메커니즘 이해에 취약함을 밝힙니다.
핵심 포인트
- 소프트웨어 월드 모델 개념 정의 및 실행 리소스 중심의 새로운 평가 축 제안
- 메모리 사용량, 실행 시간, 프로파일러 출력 등 다각도 예측 능력 측정
- SWE-bench Verified를 활용하여 실제 엔지니어링 작업과 유사한 환경 구축
- 프런티어 모델들이 코드 작성 능력에 비해 실행 동작 이해도가 낮음을 확인
소프트웨어 엔지니어링은 인간에 의해 수행되든 AI 에이전트에 의해 수행되든, 소프트웨어가 어떻게 동작하는지에 대한 추론을 필요로 합니다. 우리는 이러한 추론을 지원하는 내부 모델을 소프트웨어 월드 모델 (Software World Model)이라고 부르며, 현재의 코드 실행 벤치마크는 그중 잘 연구된 한 부분인 제어 흐름 (Control Flow)을 다루고 있다고 간주합니다. 본 논문에서 우리는 관찰 가능한 축을 실행 리소스 (Execution Resources)로 전환함으로써 더 광범위한 평가를 향한 발걸음을 내딛습니다. 테스트 결과 및 예외 클래스 (Exception Class)와 더불어, 우리는 피크 메모리 (Peak Memory), 실제 실행 시간 (Wall-clock Time), 그리고 메서드 및 라인 단위의 순위가 매겨진 프로파일러 (Profiler) 출력을 예측합니다. 테스트를 실제 소프트웨어 엔지니어링 작업에 가깝게 유지하기 위해 SWE-bench Verified를 데이터 소스로 사용합니다. 프런티어 (Frontier) 모델들을 포함하여 테스트된 모든 모델은 완만한 성능과 취약한 동작을 보였으며, 이는 모델들이 소스 코드가 어떻게 작성되는지가 아니라 소프트웨어가 어떻게 실행되는지에 대한 이해가 현저히 부족함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기