정리 증명 AI의 '최소 구성' 에이전트: 복잡화에 대한 안티테제

서론

루미나이(Luminaire) R&D 팀의 미야와키 쇼고입니다.

현재는 멀티모달(Multimodal) AI 연구를 수행하는 대학원생으로서,

생성형 AI 및 AI 에이전트 기술을 실천적으로 탐구하고 있습니다.

최근 AI 에이전트의 아키텍처(Architecture)가 점점 복잡해지고 있지 않나요?

멀티 에이전트(Multi-agent) 연동, 복잡한 라우팅(Routing), 고도화된 트리 탐색(Tree Search)…… 물론 그러한 것들이 필요한 영역도 있습니다만, "과연 정말 그 정도의 복잡함이 필요한가?"라는 의문이 들 때가 있습니다.

이번에는 그러한 풍조에 일침을 가하는 최소 구성의 정리 증명 에이전트라는, 2026년 2월 말에 막 발표된 매우 통쾌한 논문을 리뷰어의 관점에서 리뷰합니다.

💡 이 기사에서 배울 수 있는 것

최신 자동 정리 증명(ATP, Automated Theorem Proving) AI의 트렌드
SOTA(State-of-the-Art)에 필적하는 '최소 구성 에이전트'의 아키텍처
에이전트 개발에 있어서 '뺄셈 설계'의 중요성
구현으로 옮기기 위한 LangGraph적 사고법

📝 기사의 구성

왜 이 주제를 선택했는가
논문 리뷰 (구조화 독해 · 평가 · Meta-Analysis)
구현 관점 (재현을 위한 아키텍처 설계)
필자의 고찰 (현장과 이론의 가교)
요약

🎯 결론

"반복적인 프롬프트 개선", "심플한 기억 관리", "외부 도구 검색" 이 세 가지만 있다면, 복잡한 강화학습(RL)이나 거대한 트리 탐색 시스템을 구축하지 않고도 최첨단 수준의 정리 증명 AI를 만들 수 있습니다.

개요

수학 정리 증명 언어인 "Lean"을 다루는 AI 에이전트에 있어, 복잡한 기존 시스템과 동등하거나 그 이상의 성능을 끌어내는 "최소 구성(Minimal)" 베이스라인을 제안하고 검증한 논문입니다.

1. 왜 이 주제를 선택했는가

현장에서 PoC(Proof of Concept, 개념 실증)를 진행할 때, "일단 최신 기술인 복잡한 아키텍처를 짜보자"라는 함정에 빠지기 쉽습니다. 하지만 운영 비용이나 유지보수성을 고려하면, 아키텍처는 심플하면 심할수록 좋을 것입니다.

현재 AI를 이용한 수학적 추론(AlphaGeometry 등)이나 Lean을 이용한 정리 증명 연구는 강화학습(RL)이나 합성 데이터 생성을 결합한 중후장대한 시스템이 주류를 이루고 있습니다. 그러한 가운데, 최소한의 추론 루프만으로 어디까지 싸울 수 있는가?를 우직하게 검증한 본 논문은 실무의 에이전트 설계에 있어서도 매우 강력한 지침이 될 것이라 느꼈기에 선정했습니다.

2. 관련 조사

📘 Paper

arXiv ID: 2602.24273 (2026년 2월 27일) -
제목: A Minimal Agent for Automated Theorem Proving -
저자: Borja Requena Pozo 외 -
개요: Lean을 이용한 자동 정리 증명에서, SOTA 시스템이 가진 핵심 기능(반복적 개선 · 라이브러리 검색 · 문맥 관리)만을 추출한 "최소한의 에이전트"를 구축하여, 복잡한 아키텍처와 다를 바 없는 성능을 실증한 연구.

1️⃣ 구조화 독해

목적: 복잡해지는 AI 정리 증명 시스템에 대해 공정하게 비교·평가하기 위한 "심플하고 강력한 베이스라인"을 제공하는 것. -
가설: 현재 SOTA 모델 성공의 요인은 복잡한 RL 파이프라인이 아니라, "반복적인 피드백", "기억(Context)"

평가 항목	평가	코멘트
신규성 (Novelty)	★★★☆☆	기법 자체(반복 개선 + 도구)는 고전적이지만, 이를 "최소 베이스라인"으로서 정리 증명 영역에 재정의했다는 점이 독특함.
실용성 (Practicality)	★★★★★	복잡한 인프라가 불필요함. API 기반의 LLM과 로컬 Lean 환경만으로 즉시 구동할 수 있어 실무 전용성이 매우 높음.
재현성 (Reproducibility)	★★★★★	오픈 소스(Open Source)로 공개되어 있으며, 프롬프트 설계나 아키텍처도 매우 단순명료함.
기술적 깊이 (Technical Depth)	★★★☆☆	이론적인 심층 탐구보다는 "뺄셈의 엔지니어링"을 통한 경험적 (Empirical) 실증에 무게를 두고 있음.
타당성 (Scientific Rigor)	★★★★☆	여러 벤치마크와 기반 모델을 통해 어블레이션 연구 (Ablation study)를 수행하고 있어, 주장에 대한 뒷받침이 충분함.

3️⃣ 비교·검증

기존의 강화학습 (RL) 기반 접근 방식(예: DeepSeek-Prover나 Lean Copilot의 고도화된 탐색 기법)과 비교하면, 본 기법은 추론 시 계산량 (Inference-time computation)의 사용 방식이 근본적으로 다릅니다.

기존 방식이 "트리 탐색 (Tree Search)으로 무수한 후보를 확장하여 정답을 찾는" 접근 방식이라면, 본 기법은 "인간 수학자처럼 컴파일 에러 (Compile Error)를 해독하며 하나의 증명을 끈기 있게 수정해 나가는" 접근 방식입니다. 결과적으로 API 호출 수와 토큰 소비량을 억제할 수 있으며, 에코시스템의 변화(Lean 버전 업데이트 등)에도 프롬프트 하나로 대응할 수 있는 유연성을 갖추고 있습니다.

5️⃣ 코멘트

🧾 Reviewer Summary
- Strengths (강점):
"최소한의 구성으로 최대한의 성과를 낸다"라는 설계 사상이 아름다우며, 실험 결과가 이를 강력하게 뒷받침하고 있다. 오픈 소스화를 통한 커뮤니티 기여도도 높다. 비용 효율성 관점에서의 평가도 실용적이다.
...

3. 재현 관점 (Implementation Lens) & 구현 아키텍처

이 논문의 훌륭한 점은 우리가 평소 사용하는 LangGraph나 Dify와 같은 프레임워크로 즉시 재현할 수 있다는 점입니다.

논문 속의 세 가지 모듈을 LangGraph 스타일의 플로우(Flow)로 번역해 보겠습니다.

【구현 파이프라인의 개념】

Proposer Node
현재 문제문과 지금까지의 실패 이력을 LLM에 전달하여, Lean 증명 코드를 생성하게 한다.
Compiler Tool Node
생성된 코드를 추출하여 실제 로컬 Lean 환경(서브 프로세스 등)에서 실행한다.
- 성공 (Success) -> 루프 종료, 증명 완료! 🎉
- 실패 (Error) -> 에러 메시지와 오류 지점을 포착.
Memory / Review Node
에러 내용을 포맷팅하고, "왜 틀렸는지"를 요약하여 Memory 리스트에 추가한다.
Conditional Edge
최대 시도 횟수에 도달하지 않았다면 Proposer Node로 돌아간다.

이를 Python 스타일의 의사 코드 (Pseudo-code)로 작성하면 놀라울 정도로 단순합니다.

# Minimal Agent for ATP (LangGraph 스타일의 의사 코드)
def proposer_node(state):
    prompt = f"""
    ...

이 "코드 생성 → 컴파일 → 에러를 프롬프트에 피드백"하는 루프는 정리 증명뿐만 아니라, 사내 시스템의 자율 코드 생성 에이전트 등에도 그대로 전용할 수 있습니다.

4. 저자의 고찰

💡 "뺄셈의 설계"야말로 실용화의 열쇠

AI 에이전트 업계에서는 논문을 통과하기 위해 의미 없이 복잡한 모듈을 이어 붙인 "프랑켄슈타인형 에이전트"가 종종 눈에 띕니다. 하지만 본 논문은 "LLM의 기초적인 추론 능력 (베이스 모델의 강함) + 환경으로부터의 확실한 피드백 (Lean 컴파일러)"의 조합이 사실 가장 강력한 엔진임을 증명했습니다.

이는 엔지니어로서 뼈아프면서도 용기를 얻게 되는 사실입니다.

💡 환경의 중요성

이 최소 구성이 잘 작동하는 가장 큰 이유는, Lean이라는 "절대적으로 정답/오답을 판정해 주는 완벽한 환경"이 존재하기 때문입니다.

비즈니스 영역의 RAG(Retrieval-Augmented Generation)나 에이전트(Agent) 개발에 이를 응용한다면, "LLM을 똑똑하게 만드는 것"보다 "LLM의 출력을 확정적으로 체크하는 메커니즘(Rule-based Checker, Validator, Test Code)"을 에이전트의 루프(Loop) 내에組み込む 것이 정밀도 향상의 최단 경로가 된다는 깊은 통찰을 제공합니다.

5. 요약

최소 구성의 강점: 반복적 개선(Iterative Improvement), 기억(Memory), 검색(Retrieval)만으로 이루어진 심플한 에이전트가 복잡한 정리 증명 AI의 최첨단 성능에 필적하는 성능을 보여주었다.

비용과 효율: 싱글 샷(Single-shot) 방식의 대량 생성보다, 에러를 해석하고 수정하는 루프 구조가 비용 효율적이다.

현장 응용: 에이전트 설계는 "뺄셈"에서 시작해야 한다. 완벽한 검증기(Verifier)를 준비하고, 심플한 피드백 루프를 돌리는 것이 가장 확실한 방법이다.

집필: 미야와키 쇼고 (Lluminai Inc. / 루미나이)

【현재 채용 강화 중입니다!】

AI 엔지니어
PM/PdM
전략 투자 컨설턴트

▼대표와의 캐주얼 면담 URL