Mistral의 Leanstral 1.5, miniF2F에서 100% 달성 및 5개의 실제 버그 발견

Mistral의 Leanstral 1.5는 miniF2F에서 100% 점수를 기록하고, 587개의 Putnam 문제를 해결하며, 오픈 소스 코드에서 5개의 실제 버그를 찾아냈습니다.

Mistral AI는 miniF2F 형식 수학 벤치마크 (formal math benchmark)에서 100% 점수를 기록한 오픈 소스 모델인 Leanstral 1.5를 출시했습니다. 이 모델은 또한 57개의 오픈 소스 저장소 (repositories)에서 이전에 알려지지 않았던 5개의 버그를 발견했습니다.

주요 사실

miniF2F 형식 수학 벤치마크에서 100% 달성
672개의 Putnam 문제 중 587개 해결
57개의 오픈 소스 저장소에서 5개의 버그 발견
Apache 2.0 라이선스, Hugging Face에서 사용 가능
중간 학습 (mid-training), 지도 미세 조정 (SFT), 강화학습 (RL)을 통해 학습됨

Mistral AI는 Lean 4 프로그래밍 언어의 형식 검증 (formal verification)을 위해 구축된 오픈 소스 모델 (Apache 2.0)인 Leanstral 1.5를 출시했습니다. Lean 4는 수학적 증명과 소프트웨어의 정확성을 형식적으로 검증하도록 설계되었습니다.

The Decoder에 따르면, Mistral은 이 모델이 고등학교 수준부터 수학 올림피아드 난이도까지의 문제를 다루는 형식 수학 벤치마크인 miniF2F에서 100%를 달성했다고 밝혔습니다. Putnam 수학 경시 대회에서 출제된 672개의 문제를 포함하는 PutnamBench에서는 587문제를 해결했습니다. 군론 (group theory) 및 환론 (ring theory)과 같은 분야의 석사 및 박사 수준 과제를 테스트하는 대수학 벤치마크인 FATE-H 및 FATE-X에서는 각각 87%와 34%라는 최고 점수를 기록했습니다.

이 모델은 주로 수학을 위해 학습되었지만, Mistral은 코드 검증 (code verification)에서도 우수한 성능을 보인다고 말합니다. 실제 테스트에서 이 모델은 57개의 오픈 소스 저장소를 스캔하여 Rust 라이브러리인 varinteger의 오버플로 (overflow) 버그를 포함하여 이전에 알려지지 않았던 5개의 버그를 잡아냈습니다. 모델은 Hugging Face와 무료 API를 통해 사용할 수 있습니다. 학습에는 중간 학습 (mid-training), 지도 미세 조정 (supervised fine-tuning), 그리고 강화학습 (reinforcement learning)이 포함되었습니다.

독특한 관점: 실용적인 버그 탐지 도구로서의 형식 검증 (Formal verification)

대부분의 형식 검증 (Formal verification) 모델은 수학적 증명에 집중하지만, Leanstral 1.5가 실제 운영 중인 Rust 코드에서 실제 버그를 발견한 것은 그 흐름을 바꿉니다. 이 모델은 단순한 연습용 예제가 아닌, Rust 라이브러리인 varinteger에서 오버플로 (overflow) 버그를 잡아냈습니다. 이는 이전에는 학술적인 수학 문제에 국한되었던 Lean 4 모델들이 실용적인 소프트웨어 검증 도구로서 역할을 할 수 있음을 시사합니다. Mistral이 Apache 2.0 라이선스로 오픈 소스 공개를 결정함에 따라, 개발자들이 CI/CD 파이프라인에 형식 검증을 통합하는 장벽이 낮아졌으며, 이는 잠재적으로 전통적인 퍼징 (fuzzing)이나 수동 감사 (manual audits)에 대한 의존도를 줄일 수 있습니다.

주목해야 할 점

Mistral의 다음 출시를 주목하십시오. Leanstral의 더 큰 변형 모델이거나 그들의 API에 통합될 가능성이 높습니다. 또한, 주요 Rust 프로젝트의 첫 번째 공개 사례 연구와 함께 CI/CD 파이프라인 내 Lean 4 검증의 오픈 소스 채택이 증가하는지 추적하십시오.

Leanstral 1.5 tops the open-source field on PutnamBench, FATE-H, and FATE-X. Only the closed-source Aleph Prover beats it on PutnamBench. | Image: Mis

출처: the-decoder.com

원문 게시지: gentic.news

Insights

Mistral의 Leanstral 1.5, miniF2F에서 100% 달성 및 5개의 실제 버그 발견

요약

핵심 포인트

독특한 관점: 실용적인 버그 탐지 도구로서의 형식 검증 (Formal verification)

주목해야 할 점

댓글

AURA: 구조를 먼저 협상하고, 변경 사항만 전송하라

PaperQuire v0.3.0 — AI 에이전트를 위한 PDF 도구

【2026년 최신·구현 포함】 AI 에이전트 프레임워크 철저 비교: LangChain·CrewAI·AutoGen·Claude Agent

단 500바이트만 사용하여 세계 지도 만들기

AURA: 구조를 먼저 협상하고, 변경 사항만 전송하라

PaperQuire v0.3.0 — AI 에이전트를 위한 PDF 도구

【2026년 최신·구현 포함】 AI 에이전트 프레임워크 철저 비교: LangChain·CrewAI·AutoGen·Claude Agent

단 500바이트만 사용하여 세계 지도 만들기