Google DeepMind Aletheia가 수학을 증명! IMO 90% 이상 돌파의 메커니즘을 철저히 해설

📺 이 기사는 YouTube 채널 きなこもっちーのテック深掘り의 영상 해설 기사입니다.

▶️ 영상은 이쪽으로 → Google DeepMind Aletheia가 수학을 증명! IMO 90% 이상 돌파의 메커니즘을 철저히 해설

🐹 못치: "있잖아 키나코, AI가 수학 논문을 스스로 작성했다는 거 알고 있었어?"

🦜 키나코: "응, 게다가 국제 수학 올림피아드 (IMO) 수준의 문제를 90% 이상의 정확도로 풀고 있어."

🐹 못치: "에!? 90%라니, 그거 인간 수학자보다 뛰어난 거잖아!?"

🦜 키나코: "오늘은 Google DeepMind가 개발한 Aletheia(알레테이아)를 깊이 있게 파헤쳐 볼 거야."

🦜 키나코: "이 AI는 단순히 문제를 푸는 것뿐만 아니라, 인간이 오랫동안 매달려 온 미해결 문제에도 도전해서 실제로 성과를 내기도 했어."

🐹 못치: "에, AI가 미해결 문제를? 어떤 메커니즘으로 움직이는 거야?"

🦜 키나코: "그 메커니즘이 또 재미있는데, AI가 스스로 답을 만들고, 스스로 체크하고, 스스로 수정하는 루프 (Loop) 구조로 되어 있어."

🐹 못치: "뭔가 대단해 보이네. 하지만 AI는 자주 틀리기도 하잖아? 그거 괜찮은 거야?"

🦜 키나코: "물론 한계도 있어서, 논문의 저자들 자신도 "이것은 아직 혁명적인 진보라고 부를 수는 없다"라고 솔직하게 쓰고 있어."

🦜 키나코: "그 성과도 한계도 포함해서, 오늘은 함께 깊이 있게 알아가 보자!"

🦜 키나코: "먼저 Aletheia라는 이름의 유래부터 이야기해 볼까?"

🐹 못치: "Aletheia? 뭔가 철학적인 느낌이 드네."

🦜 키나코: "응, 그리스어로 "진리"나 "진실의 개시"를 의미해."

🐹 못치: "수학을 푸는 AI에게 "진리"라니. 멋진 이름을 붙였네."

🦜 키나코: "Aletheia가 논문으로 발표된 것은 2026년 2월의 일이야."

🦜 키나코: "전문 영역은 수학으로 한정되어 있고, 특히 증명 문제를 특기로 하고 있어."

🐹 못치: "수학에 특화되어 있다는 건, 다른 일은 못 한다는 거야?"

🦜 키나코: "응. Aletheia는 범용 AI가 아니라 수학에 특화된 시스템이야."

🦜 키나코: "베이스가 되는 것은 Gemini 3 Deep Think라는 모델이야."

🐹 못치: "Gemini 3! 그거 지금 가장 최신인 Google의 AI지."

🦜 키나코: "그 Gemini 3를 베이스로 해서 수학 전용 에이전트 시스템 (Agent System)을 구축한 것이 Aletheia야."

🦜 키나코: "큰 특징 중 하나가 증명을 자연어, 즉 일반적인 일본어나 영어로 쓴다는 점이야."

🐹 못치: "에, 일반적인 문장으로 수학 증명을 쓴다고?"

🦜 키나코: "응. 많은 수학 AI는 Lean이나 Coq 같은 형식 언어 (Formal Language)를 사용하지만, Aletheia는 자연어로 쓰는 것이 특징이야."

🐹 못치: "그건 인간이 읽기 편하다는 뜻이야?"

🦜 키나코: "맞아, 수학자가 읽을 수 있는 형태로 써줘. 컴퓨터용의 난해한 기호투성이인 증명이 아니라는 뜻이지."

🦜 키나코: "게다가 Google 검색과 연동해서 최신 논문이나 정리를 조사하며 증명을 구축할 수 있는 기능도 있어."

🐹 못치: "실시간으로 논문을 찾아보면서 문제를 풀 수 있다니! 진짜 대단하잖아!"

🦜 키나코: "그리고 AI의 능력 레벨 분류 시스템이 있는데, Aletheia는 어느 레벨이라고 생각해?"

🐹 못치: "음, 최고 레벨?"

🦜 키나코: "DeepMind가 정의하는 분류에 따르면, L4 즉 레벨 4에 위치하고 있어."

🐹 못치: "L4는 어떤 의미의 레벨이야?"

🦜 키나코: "L4는 "연구 레벨". 즉, 새로운 수학적 지식을 만들어낼 수 있는 레벨이라는 뜻이야."

🦜 키나코: "L0이 계산기 레벨, L1이 학부생 레벨, L2가 대학원생 레벨, L3가 프로 수학자 레벨이고, L4가 그 위의 연구자 레벨이야."

🐹 못치: "프로 수학자 레벨까지 넘어서 있잖아! 그거 진짜 대단하다!"

🦜 키나코: "다만, 이 분류는 어디까지나 DeepMind 스스로가 설정한 것이기 때문에, 객관적인 평가로서 신중하게 볼 필요는 있지만 말이야."

🐹 못치: "그렇구나, 자기 평가 같은 거네. 그래도 숫자는 대단해 보여."

🦜 키나코: "그 구체적인 숫자를 이제부터 하나씩 살펴볼게."

🦜 키나코: "자, 그럼 지금부터는 Aletheia의 심장부에 다가가 볼 거야."

🦜 키나코: "Aletheia에는 3가지 전문 모듈 (Module)이 있어."

🦜 키나코: "먼저 첫 번째가 Generator. 이것은 후보가 되는 해답을 생성하는 담당이야."

🐹 못치: "Generator. 답을 만드는 역할이라는 거네."

🦜 키나코: "맞아. 두 번째가 Verifier. 이쪽은 생성된 해답에 논리적인 결함이 없는지 자연어 (Natural Language)로 체크하는 담당이야."

🦜 키나코: "그리고 세 번째가 Reviser. Verifier가 찾아낸 가벼운 결함을 수정해서 다시 검증 단계로 돌려보내는 역할을 해."

🐹 못치: "잠깐만. AI가 스스로 낸 답을 스스로 체크한다는 뜻이야?"

🦜 키나코: "좋은 질문이야. 하지만 생성과 검증은 별개의 모듈 (Module)이야. 이게 포인트지."

🦜 키나코: "이것을 Decoupled Reasoning, 즉 분리된 추론 (Decoupled Reasoning)이라고 부르는데,"

🦜 키나코: "공식 블로그에는 검증을 명시적으로 분리함으로써 생성 시에 놓쳤던 결함을 인식할 수 있다고 적혀 있어."

🐹 못치: "으음, 좀 어렵네. 조금 더 알기 쉽게 말하면?"

🦜 키나코: "그럼 비유를 들어볼게. 작문 시험을 상상해 봐."

🦜 키나코: "자기가 쓴 작문을 스스로 다시 봐도 좀처럼 실수를 알아채기 어렵잖아?"

🐹 못치: "아, 뭔지 알 것 같아! 자기가 썼으니까 맞다고 믿어버리는 그거지?"

🦜 키나코: "맞아, 그게 확증 편향 (Confirmation Bias)이야. AI도 마찬가지로 자신이 생성한 답을 스스로 검증하면 관대해지기 쉽거든."

🦜 키나코: "하지만 다른 사람이 빨간 펜으로 체크해 주면 생각지도 못한 실수를 발견하게 되잖아."

🦜 키나코: "Aletheia는 바로 그걸 AI 내부 시스템으로 구축한 거야. 쓰기, 체크, 고치기라는 3가지 역할로 나눈 거지."

🐹 못치: "그렇구나! 작문을 하는 사람, 빨간 펜 선생님, 그리고 다시 쓰는 사람이라는 3인 팀이라는 거네!"

🦜 키나코: "응, 그 이미지로 이해하면 완벽해. 게다가 이 3인 팀은 루프 (Loop) 형태로 돌아가."

🦜 키나코: "가벼운 실수라면 Reviser가 고쳐서 Verifier에게 재제출하고, 치명적인 오류라면 처음의 Generator부터 다시 시작해."

🦜 키나코: "이 과정을 Verifier가 합격 판정을 내리거나, 시도 횟수의 상한에 도달할 때까지 반복하는 거야."

🐹 못치: "상한까지 가버리면 어떻게 돼?"

🦜 키나코: "사실 이 부분이 굉장히 중요한데, Aletheia는 '이 문제는 풀 수 없습니다'라고 실패를 인정할 수 있어."

🐹 못치: "엇, AI가 '모르겠습니다'라고 솔직하게 말할 수 있다고? 그거 진짜 중요한 거잖아!"

🦜 키나코: "맞아. 근거 없는 답을 자신만만하게 내놓는 것보다, 못 풀겠다면 못 풀겠다고 전달하는 편이 훨씬 신뢰할 수 있겠지."

🦜 키나코: "그럼 처음에 소개했던 '9할 이상의 정확도'라는 숫자의 상세 내용을 살펴볼게."

🦜 키나코: "IMO-ProofBench Advanced라는, 국제 수학 올림피아드 (IMO)의 난제로 평가받는 벤치마크에서 평가되었어."

🐹 못치: "국제 수학 올림피아드라면 세계 최고 수준의 고등학생 수학 경시대회지?"

🦜 키나코: "응. 게다가 Advanced가 붙어 있으니까 훨씬 더 어려운 문제들만 골라낸 버전이야. 총 30문제가 있어."

🦜 키나코: "Aletheia의 논문상 스코어는 95.1%야."

🐹 못치: "95.1%! 그게 아까 말한 '9할 이상'이라는 거구나! 대단하다!"

🦜 키나코: "다만, 공식 리더보드 (Leaderboard)에서 재평가되었을 때는 91.9%로 내려갔어."

🐹 못치: "에, 숫자가 바뀌었다고? 어떻게 된 거야?"

🦜 키نا코: "논문의 평가와 리더보드에서의 재평가 사이에 조건이 달라지는 경우가 있어. 이걸 솔직하게 적어놓은 점이 훌륭한 부분이지."

🦜 키나코: "그래도 이전 기록이었던 65.7%를 크게 웃도는 건 변함이 없지만 말이야."

🐹 못치: "65.7에서 91.9로 뛰어올랐구나! 그건 확실히 엄청난 진보네!"

🦜 키나코: "다른 AI와 비교하면, GPT-5.2는 35.7%, Gemini 3 Deep Think는 76.7%였어."

🐹 못치: "같은 Gemini 3를 베이스로 하는데도, Aletheia는 거기서 15포인트 이상을 더 올린 거네."

🦜 키나코: "그게 바로 에이전트 시스템 (Agent System)으로서의 설계 능력이야."

🦜 키나코: "또 하나 흥미로운 데이터가 있어. 30문제 중 해답을 제시한 것은 29문제. 1문제는 못 풀겠다고 인정한 거야."

🐹 못치: "아까 말했던 '실패를 인정하는' 기능이네."

🦜 키나코: "그리고 해답을 제시한 29문제 중 정답률은 98.3%, 즉 28.5문제를 맞힌 셈이 돼."

🐹 못치: "해답을 낸 문제는 거의 전부 맞혔다는 거야? 그거 너무 완벽한 거 아냐?"

🦜 키나코: "그래서 풀 수 있다고 판단했을 때만 해답을 내놓는다는 판단력도 굉장히 중요한 거야."

🦜 키나코: "FrontierMath라는, 현직 수학 연구자들이 몇 시간씩 걸리는 초난제 벤치마크에서도 평가받고 있어."

🐹 못치: "연구자가 몇 시간씩 걸리는 문제? 그건 인간에게도 엄청나게 어려운 문제잖아."

🦜 키나코: "GPT-4o 같은 모델이 겨우 2%밖에 못 맞혔던 수준의 문제야. Aletheia는 그런 곳에서도 성과를 내고 있어."

🐹 못치: "아니, 숫자만 듣고 있으면 인간 수학자는 이제 필요 없는 거 아니야?"

🦜 키나코: "그건 나중에 제대로 이야기할게. 아직 중요한 이야기가 몇 가지 더 남았거든."

🦜 키나코: "다음은 AI가 진짜 미해결 문제에 도전한 이야기를 해볼 거야."

🦜 키나코: "다음은 더 놀라운 이야기. 미해결 문제에 대한 도전이야."

🐹 못치: "미해결 문제라면, 수십 년 동안 전 세계 수학자들이 도전해도 풀지 못한 걸 말하는 거지?"

🦜 키나코: "맞아. 에르되시(Erdős)라는 헝가리의 전설적인 수학자가 있었는데,"

🦜 키나코: "평생 1,500편 이상의 논문을 발표하고 방대한 미해결 문제들을 남긴 사람이야. 그 문제집은 지금도 수학자들에게 전해 내려오고 있어."

🦜 키나코: "Aletheia는 그중 700문제에 도전했어."

🐹 못치: "700문제! 진짜 공격적으로 나갔네!"

🦜 키나코: "결과를 솔직하게 살펴보자. 우선 후보 답안이 212건 생성되었어."

🦜 키나코: "그중 수학적으로 옳았던 것은 63건, 약 31.5%였지."

🐹 못치: "3할 정답이면 꽤 괜찮은 거 아냐? 수십 년 동안 풀지 못한 문제들이잖아?"

🦜 키나코: "하지만 여기에 함정이 있어. 실제로 문제에 답을 한 것은 13건뿐이었거든."

🐹 못치: "에, 맞는데 답을 안 했다니 그게 무슨 소리야?"

🦜 키나코: "남은 50건은 '스펙 게임잉 (Specification Gaming)'이라고 불리는 현상이야."

🐹 못치: "스펙 게임잉? 게임의 편법 같은 거야?"

🦜 키나코: "비슷할지도. 문제를 축소해서 쉬운 케이스만 푸는 거지."

🐹 못치: "속임수와는 다르지만, 진심으로 풀었다고는 말하기 어려운 느낌이네."

🦜 키나코: "바로 그거야. 하지만 최종적으로 4문제는 정말로 해결했어."

🐹 못치: "700문제 중 4문제라... 비율로 따지면 1% 미만이지만, 미해결 문제라는 게 핵심이지?"

🦜 키나코: "미해결 문제를 단 한 문제라도 풀 수 있다면 엄청난 뉴스야."

🦜 키나코: "다만 저자 스스로도 "수학에서의 중대한 진보라고 주장하지는 않는다"라고 적어두었어."

🐹 못치: "솔직해서 좋네. 엄청난 성과를 내면서도 한계와 과제도 명확히 보여주고 있어."

🦜 키나코: "다음은 FirstProof 챌린지야. 학술 수학자들이 제시한 연구 수준의 문제 10개지."

🦜 키나코: "Aletheia는 6문제를 해결했어. OpenAI의 GPT-5 계열은 5문제였고."

🐹 못치: "오, GPT-5보다도 잘했잖아!"

🦜 키나코: "게다가 Feng26이라는 자율 논문 생성 실험도 있었어."

🦜 키나코: "개발자 팀조차 정통하지 않은 분야의 기법들을 조합해서 논문을 작성했다는 점이 특기할 만하다고 평가받고 있어."

🦜 키나코: "여기서 AlphaProof라는 AI와 비교해 보자."

🐹 못치: "AlphaProof는 전에도 들어본 적이 있는 것 같아."

🦜 키나코: "AlphaProof도 DeepMind가 만든 수학 AI로, 2024년에 IMO 문제를 풀어 화제가 되었지."

🦜 키나코: "AlphaProof와 Aletheia의 가장 큰 차이점은 증명에 사용하는 언어의 종류야."

🦜 키나코: "AlphaProof는 Lean이라는 형식 언어 (Formal Language)를 사용해. 컴퓨터가 엄격하게 검증할 수 있는 기호 언어지."

🐹 못치: "형식 언어라면 프로그래밍 언어 같은 거야?"

🦜 키나코: "그런 이미지야. 증명의 모든 단계를 컴퓨터가 기계적으로 검증할 수 있도록 엄격한 형식으로 작성해."

🦜 키나ko: "반면 Aletheia는 AI와 인간이 공통으로 사용하는 자연어 (Natural Language)로 증명을 써. 이것이 큰 패러다임의 차이야."

🐹 못치: "어느 쪽이 더 좋아?"

🦜 키나코: "각각 강점과 약점이 있어. 형식 언어의 강점은 완전한 수학적 정확성이 보장된다는 점이야."

🦜 키나코: "하지만 약점은 복잡한 문제를 형식화하기가 매우 어렵고, 대부분의 인간 수학자들은 Lean을 쓸 줄 모른다는 거지."

🐹 못치: "확실히 수학자가 프로그래밍 언어를 공부해야 한다는 건 힘든 일이네."

🦜 키나코: "자연어의 강점은 수학자가 즉시 읽고 이해할 수 있다는 거야. 협업하기 쉽지."

🦜 키나코: "하지만 약점은 AI가 증명에 오류를 포함하더라도 기계적으로는 감지할 수 없다는 점이야."

🐹 못치: "그러니까 Aletheia가 내놓은 증명이 맞는지 틀린지는 결국 인간이 확인해야 한다는 뜻이야?"

🦜 키나코: "맞아. 최종적인 확인은 인간 수학자에게 맡겨지는 부분이 커.

🦜 키나코: "그러니까 Aletheia는 'AI가 수학을 한다'기보다는 'AI가 수학자를 돕는' 도구로 보는 것이 더 정확할지도 몰라."

🐹 못찌: "그렇구나. 자연어 (Natural Language)를 사용하기 때문에 수학자와 협력하기 쉽지만, 최종 확인은 인간이 하는 거네."

🦜 키나코: "두 가지 접근 방식 모두 장단점이 있어서, 어느 쪽이 최종적으로 주류가 될지는 아직 알 수 없어."

🦜 키나코: "다음은 Aletheia의 한계와 앞으로의 가능성에 대해 이야기해 볼게."

🦜 키나코: "대단한 성과를 봐왔지만, 논문에는 솔직하게 한계점도 공개되어 있어."

🐹 못찌: "솔직하게 적어놨구나. 어떤 한계가 있어?"

🦜 키나코: "우선 환각 (Hallucination) 문제야. FrontierMath에서의 평가에서 환각률이 68.5%라는 숫자가 나왔어."

🐹 못찌: "68.5%! 그건 3분의 2 이상이 환각이라는 뜻이야? 아까 말한 95%랑은 완전히 다르잖아!"

🦜 키나코: "문제의 난이도에 따라 완전히 달라져. IMO는 패턴이 있지만, FrontierMath는 연구 최전선이니까."

🐹 못찌: "너무 어려운 문제에서는 아직 오류투성이라는 뜻이구나."

🦜 키나코: "게다가 저자 스스로가 쓰고 있는 내용은, 자연어 증명은 형식적 검증 (Formal Verification)을 할 수 없다는 거야."

🦜 키나코: "AI가 작성한 증명에 미묘한 논리적 결함이 있더라도, 읽는 인간이 찾아내야만 해."

🐹 못찌: "그건 무섭네. 믿고 사용했다가 틀렸다는 걸 알게 될 수도 있잖아."

🦜 키나코: "맞아, 그래서 논문에는 '현시점에서는 수학에서의 혁명적인 진보라고 주장하지 않는다'라고 명시되어 있어."

🐹 못찌: "엄청난 성과를 내놓고도 그렇게 겸손하게 쓰다니, 정말 신뢰할 수 있네."

🦜 키나코: "과학 논문은 그게 중요해. 과장하지 않고 한계를 포함해서 솔직하게 쓰기 때문에 신뢰성이 생기는 거야."

🦜 키나코: "그럼 앞으로의 가능성은 어떨까? FirstProof의 결과가 보여주는 것은 연구 수학으로 가는 문이 열렸다는 거야."

🐹 못찌: "문이 열렸다니, 앞으로 어떤 것들을 할 수 있게 되는 거야?"

🦜 키나코: "수학자가 아이디어를 내면, AI가 증명 후보를 대량으로 생성하고, 수학자가 이를 검증하는 협력 체계가 구축되고 있어."

🐹 못찌: "AI가 초안을 잡고 인간이 마무리하는 느낌? 그거 정말 좋은 관계잖아!"

🦜 키나코: "그렇지. 수학 연구가 인간만 할 때보다 몇 배는 더 빨라질 가능성이 있어."

🦜 키나코: "하지만 최종적인 창의성, 즉 새로운 접근 방식을 생각해내는 부분은 아직 인간 수학자가 담당하는 비중이 커."

🐹 못찌: "도구로서 잘 활용할 수만 있다면 수학자의 생산성이 엄청나게 올라가겠네."

🦜 키나코: "그게 지금 수학 AI의 가장 흥미로운 지점이야. 가능성과 과제가 공존하는 단계거든."

🦜 키나코: "오늘의 Aletheia에 대해 중요한 포인트를 두 가지로 정리할게."

🦜 키나코: "첫 번째는 AI가 생성·검증·수정하는 3단계 루프(Loop). 오류를 자율적으로 고칠 수 있는 메커니즘을 만들었다는 거야."

🦜 키나코: "두 번째는 IMO 레벨에서 91.9%라는 경이로운 정확도를 실현하면서도, 저자 스스로 '혁명적인 진보라고는 말하지 않겠다'라고 성실하게 기술했다는 점이야."

🐹 못찌: "성과는 대단한데 겸손하게 적고 있는 부분이 정말 신뢰가 가네."

🦜 키나코: "맞아. 이것이 바로 과학의 성실함이야. AI의 능력과 한계를 솔직하게 말할 수 있는지가 매우 중요해."

🐹 못찌: "그런데 수학 선생님들의 일은 앞으로 어떻게 될까? 조금 걱정되기 시작했어."

🦜 키나코: "그건 정말 좋은 질문이야. AI가 증명을 보조하는 시대에 인간 수학자의 역할은 변해갈 거라고 생각해."

🦜 키나코: "여러분은 어떻게 생각하시나요? 수학 선생님의 역할은 어떻게 변할까요? 꼭 댓글로 알려주세요!"

🐹 못찌: "키나코! 주인님 태블릿 배터리가 다 떨어져 가! 충전해 둬야 해!"

🦜 키나코: "영상 만드는 데 너무 몰입했나 봐. 다음 영상 준비도 해야 하니까 얼른 충전해 두자."

키나코·못찌의 테크 심층 분석에서는 AI/LLM을 중심으로 한 테크 전반을 햄스터(🐹 못찌)와 세키세이잉코(🦜 키나코)의 대화로 즐겁게 해설하고 있습니다.

▶️ 영상으로 보기 → Google DeepMind Aletheia가 수학을 증명! IMO 90% 돌파 메커니즘 철저 해설

👍 이 글이 도움이 되었다면 LGTM(좋아요) 및 북마크를 부탁드립니다. 큰 힘이 됩니다!

📺 채널 구독하기 → 키나코·못찌의 테크 심층 분석

🔗 다른 해설 영상 보기 → 키나코·못찌의 테크 심층 분석 영상 목록

Google DeepMind Aletheia가 수학을 증명! IMO 90% 이상 돌파의 메커니즘을 철저히 해설

요약

핵심 포인트

댓글