arXiv논문2026. 06. 16. 12:00

알고리즘적 추론(Algorithmic Reasoning)을 위해 코드(Code)가 언어(Language)보다 더 나은가

요약

도구 증강 언어 모델에서 자연어 추론과 코드 실행 파이프라인의 성능 차이를 분석한 연구입니다. 실험 결과, 코드 실행이 자연어 추론보다 알고리즘 벤치마크에서 훨씬 높은 성능을 보였으며, 이는 단순한 표현 방식의 차이가 아닌 신뢰할 수 있는 외부 실행의 필요성을 시사합니다.

핵심 포인트

코드 실행이 자연어 추론보다 알고리즘 태스크에서 +31.6pp 높은 성능 기록
중간 표현(코드 vs 언어)의 변화만으로는 도구 사용의 이점을 완전히 설명할 수 없음
성능 향상의 핵심은 단순 표현이 아닌 신뢰할 수 있는 외부 실행(external execution)에 있음
통계적 의사결정 이론 모델을 통해 추론 생성과 실행의 관계를 공식화

도구 증강 언어 모델(tool-augmented language models)의 경우, 자연어 추론(natural-language reasoning)과 코드 실행 파이프라인(code-execution pipelines)을 비교하는 것은 중간 표현(intermediate representation)과 실행 메커니즘(execution mechanism)을 모두 변화시키기 때문에 어렵습니다. 우리는 중간 개입(intermediate intervention)을 통해 이러한 요소들을 분리합니다. 즉, 모델이 자신의 추론을 실행 가능한 코드(executable code)로 표현하면, 언어 모델(language model)이 문맥 내(in context)에서 해당 코드를 시뮬레이션하여 정답을 생성하는 방식입니다. 40개의 태스크로 구성된 검증 가능한 알고리즘 벤치마크(verifiable algorithmic benchmark)에서, 결정론적 코드 실행(deterministic code execution)은 자연어 추론보다 +31.6pp 더 높은 성능을 보였습니다. 우리는 이러한 중간 개입이 자연어 추론과 유의미한 차이가 없음을 관찰했습니다(+0.15pp). 이러한 결과는 우리가 평가한 설정에서 중간 표현을 바꾸는 것만으로는 도구 사용(tool-use)의 이점을 설명할 수 없음을 시사하며, 성능 향상을 위해서는 신뢰할 수 있는 외부 실행(external execution)이 필요하다는 증거를 제공합니다. 우리는 분리된 추론 생성/실행(trace-generation/execution) 체제에서 실행이 엔드 투 엔드 리스크(end-to-end risk)를 압도하는 시점을 규정하는 단순한 통계적 의사결정 이론 모델(statistical decision-theoretic model)을 통해 이러한 직관을 공식화합니다. 우리는 코드 표현으로부터 자연어 추론 흔적(natural-language reasoning traces)을 추론하기 위해 프록시 언어 모델(proxy language model)을 활용하는 재구성 개입(reconstruction intervention)을 사용하여 이론을 검증하였으며, 원래의 자연어 추론 파이프라인과 유사한 성능을 회복했습니다. 모든 실험은 https://github.com/TerryTong-Git/ToolProj 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

알고리즘적 추론(Algorithmic Reasoning)을 위해 코드(Code)가 언어(Language)보다 더 나은가

요약

핵심 포인트

댓글