OpenAI 모델이 이산기하의 중심 추측을 반박했다
요약
OpenAI 모델이 이산기하학의 추측을 반박한 사례를 통해 LLM의 수학적 발견 능력과 그 본질에 대한 논쟁을 다룹니다. LLM이 기존 지식의 '보간(interpolation)'을 통해 새로운 발견을 가속할 수 있는지, 아니면 진정한 의미의 '외삽(extrapolation)'을 통한 혁신이 가능한지에 대한 철학적·기술적 관점을 제시합니다.
핵심 포인트
- LLM은 학습 데이터의 볼록 껍질(convex hull) 내부에서 새로운 지점을 찾아내는 보간 능력을 통해 수학적 발견을 가속할 수 있음
- LLM의 성과를 단순한 '재조합'으로 치부하는 시각에 대해, 인간의 혁신 또한 기존 지식의 재조합적 성격을 포함하고 있다는 반론 제기
- 진정한 패러다임 전환(예: 일반 상대성 이론)과 같은 '껍질 바깥'의 외삽적 도약은 여전히 논쟁적인 영역임
- AI와 인간 지능을 제로섬 경쟁 관계로 보기보다, 서로 다른 역량 묶음을 가진 보완적 관계로 이해할 필요가 있음
이 HN 스레드는 우울하게 만들었고, 아직도 왜 그런지 생각 중임
OpenAI의 보도자료 같은 찬사를 걷어내고 보면, 수학 연구에서 LLM의 역할에 관한 흥미롭고 미묘한 질문이 많음
결과와 함께 실린 수학자들의 코멘트, 특히 Tim Gowers의 발언을 꼭 읽어보길 권함
그런데 댓글은 2023년부터 반복된 LLM 논쟁, 반박, 분노한 재반박의 전장처럼 됐음 3년 전 그어진 전선을 두고 같은 싸움을 반복하는 게 슬프지 않은지, 2년 뒤에도 이러고 있을지 궁금함
2년 뒤에도 이곳과 모든 인터넷 포럼은 계속 이럴 것임
Nietzsche의 유명한 구절을 마음에 새기면 삶이 나아질 수 있음: “나는 추한 것과 전쟁하고 싶지 않다. 고발하고 싶지도 않다. 고발하는 이들조차 고발하고 싶지 않다. 시선을 돌리는 것이 나의 유일한 부정이어야 한다”
사람들이 생계를 걱정하고 있으니 당연한 반응임
이해는 됨. 인간 지능과 AI를 제로섬 경쟁으로 평가하는 일이 흔한데, 고용주들도 보통 그렇게 이해하고 언어 모델 제공업체들도 그렇게 홍보하기 때문임
AI가 능력을 입증할수록, 매우 탄탄한 고용 안정성이 없는 모두에게 불편한 방향으로 기울어짐
AI가 인간 지능과 아주 다른 역량 묶음을 갖고 있고 꽤 잘 보완한다는 걸 사람들이 인정하려면 시간이 걸릴 것임
대규모로 인간 지능을 압도할 가능성은 낮고, 거기에 베팅하는 회사들은 뒤처질 것임
한쪽이 돌을 던지기 시작하니 글 내용은 중요하지 않게 되고, 글이 좋으냐 쓰레기냐의 싸움으로 변함
이런 주제로 진짜 토론을 하고 싶지만, 모두가 자기 현실만 진짜이고 반대되는 현실은 가짜라고 믿으니 계속 격화됨
HN에 와서 화만 내고 있다는 걸 깨닫고 길게 쉬곤 함
왜 우리 스스로에게 이러는지 모르겠고, 근본적으로는 대개 같은 것을 원한다고 봄
2년 뒤엔 안 그럴 것임. 그때쯤이면 내 편이 이겼을 테니까
“LLM은 훈련 데이터를 보간할 뿐”이라는 쪽에게: Ayer와 초기 Wittgenstein은 방식은 달랐지만, 수학적 진리가 세계에 대한 새로운 사실을 보고하지 않는다고 봤음
증명은 공리, 정의, 기호, 규칙 안에 이미 암묵적으로 들어 있는 것을 펼쳐 보이는 것이라는 생각은 깊이 흥미롭고, 그래도 수학자에게 발견의 공로를 주는 데 문제는 없음
그러니 기존 재료의 재조합이 결격 사유가 아니거나, 아니면 Fields Medal 상당수가 반납되어야 함
대부분의 기능적인 성인은 Fields Medal과 거의 모든 연례 “상”이 재조합적 혁신과 “새 차원의 사고” 혁신 모두에 주어진다는 걸 이해한다고 봄
인간도 모든 분야에서 매년 새 차원의 혁신을 내놓지는 못함
LLM은 “그저” 재조합한다고 말할 수 있지만, Newton/Leibniz 이전의 대수·기하·삼각법 문헌을 모두 학습시킨 LLM이 미적분을 만들어낼 수 있을지는 여전히 의심스러움
다만 이런 종류의 혁신은 LLM이 잘하는 영역이고, 그렇다고 인간도 재조합적 혁신을 잘해야 할 필요가 사라지는 건 아님
새로운 아이디어를 종합하는 면에서는 아직 인간이 할 수 있고 LLM이 못 하는 일이 많아 보임
인간 지식의 모든 조각을 거대한 고차원 지식 공간의 이산적인 점으로 상상해 볼 수 있음
그 모든 점을 둘러싼 큰 볼록 껍질을 그리면, LLM은 그 안에서 학습했으니 기존 점들 사이를 보간해 새롭지만 여전히 껍질 안에 있는 점에 도달할 수 있음
껍질 바깥의 점들에 LLM이 도달할 수 있는지는 논쟁적임
껍질 안의 새 점에 도달하는 것만으로도 매우 유용함
많은 새 발견과 증명, 어쩌면 유용한 새 발견과 증명의 대부분은 이미 가진 것을 출발점으로 삼아 도달 가능한 이런 점들임
아직 아무도 시간과 노력을 들이지 않아 발견되지 않았을 뿐인 것들이 많고, LLM은 이를 크게 가속할 수 있음
반대로 기존 점에서 외삽·보간으로 닿을 수 없어 진짜 새로운 도약이 필요한 껍질 바깥의 점들도 있음
Newton 물리학에서 일반 상대성 이론으로 넘어가는 도약이 후보 사례라고 봄
Demis Hassabis는 1915년 이전까지만 물리 지식을 학습시킨 AI에 Mercury 궤도를 보여주고, 독립적으로 일반 상대성 이론에 도달하는지를 AGI 평가로 삼자는 얘기를 한 적이 있음
현재 LLM이 그런 도약을 할 수 있을지는 의심스럽고, 대부분의 인간도 그런 도약은 못 함
Einstein을 천재라고 부르는 건 그가 홀로 일반 상대성 이론으로 도약했기 때문이며, 인간에게는 가끔 그런 존재가 나온다는 존재 증명이 있지만 AI에서는 아직 지켜봐야 함
대부분의 발견은 실제로 공리에서 함의되지만, 가끔은 더 나은 표현이 없어 새 수학이 창조된다고 할 수 있는 순간이 있음
Descartes, Newton, Leibniz, Gauss, Euler, Ramanujan, Galois 같은 사람들은 수학을 과학보다 예술처럼 다룸
예를 들어 Riemann Hypothesis를 풀려면 아마 새로운 종류의 수학이 필요하다고 보는 사람이 많고, LLM이 그걸 갑자기 발명할 가능성은 낮다고 봄
LLM 능력을 한쪽 끝은 “인간 아님”, 다른 쪽 끝은 “인간 초월”이라고 적힌 임의의 1차원 잣대로 평가해야 하는 단계가 거의 지나가길 바람
이는 무의미하고 관련성도 낮음
Deep Blue가 Kasparov를 이겼을 때 모든 것이 바뀐 건 아니었고, 동물과 기계는 늘 어떤 차원에서는 인간보다 “나았음”
애초에 단 하나의 잣대란 없고, 있다 해도 1차원이나 선형이 아니며, 각자 잣대와 양끝점은 시간에 따라 바뀜
그렇다고 AI 우월주의자에게 승리를 넘겨주는 것도 아님
LLM은 매우 유용한 도구이고 계속 극적으로 좋아지겠지만, 일부 인간이 핵심이라고 보는 모든 차원에서 인간을 넘어서지는 못할 것임
AI가 정량화된 지표 목록의 선을 넘기만 하면 보편적으로 인간보다 우월하다고 인정받는 순간은 오지 않음
“중요한 것” 자체가 주관적이기 때문임
인간의 수학적 발견 속도에 관한 요지는 좋지만, Ayer는 엉터리였고 후기 Wittgenstein은 초기 Wittgenstein을 반박했음
“이미 암묵적으로 들어 있다”는 주장이 참이려면 수학은 닫힌 체계여야 하지만, 이미 그렇지 않다는 것이 증명됐음
수학으로 수학을 빠져나갈 수 있으므로 Zermelo-Fraenkel을 비롯한 여러 공리적 고정핀이 필요해졌음
우리가 객관적으로 “수학”이라 부를 만한 것의 광대함을 실제로는 잘 이해하지 못하며, 우리가 인식하는 수학이 더 큰 수학의 일부이거나 심하게 틀렸을 가능성도 있음
그 더 큰 수학이 같은 닫힌 체계적 성질을 갖는지는 알 수 없음
LLM을 코딩에 많이 쓰는 사람에게는 그리 놀랍지 않을 일이고, 시간문제였음
수학자들은 수학적 도구를 새 방식으로 만들고 적용해 새 발견을 함
이는 직감을 따라가고 연결을 탐색하는 엄청난 양의 반복 작업임
LLM은 “발견”이 무슨 의미인지 감각이 없으니 진정한 발견을 한다고 보긴 어렵지만, 좁은 목표를 향해 모든 수학 도구를 몬테카를로식으로 시도해 먹히는 것을 찾고, 그 위에 쌓거나 개선을 결합할 수 있음
글을 읽어보면 이번 발견도 정확히 그런 방식으로 보이고, LLM이 “놀라운 연결”을 사용해 예상 결과를 넘어섰음
하지만 인간이 세운 목표, AI가 사용한 새 경로의 가치를 알아보는 인간의 이해, 그리고 개념을 탐구하게 해주는 인간이 만든 수학 언어 없이는 결과에 의미가 없음
“인간의 의도와 이해 없이는 의미가 없다”는 건 인간중심주의 아닌가 싶음
왜 이해는 인간이 할 때만 유효한가
지식은 왜 인간만을 위한 것인가
다른 종이 중력과 양자역학의 모순을 해결했다면, 우리에게 설명하고 우리가 이해하기 전까지는 의미가 없는가
놀랍지 않을 뿐 아니라 늘 예상됐던 일임. 프로그램과 증명 사이에는 차이가 없고, 둘은 같은 것임
흥미로운 점은 이 증명, 정확히는 반증이 Erdős의 원래 추측에 대한 반례를 찾아낸 방식이라는 것임
링크된 PDF의 한 수학자 반응처럼, 실제 추측이 참임을 증명하는 것보다는 다소 덜 흥미롭다고 봄
추측이 참임을 증명하려면 더 많은 이론 구성이 필요함
왜 그 추측이 맞는지 더 큰 이론에 기반해 설명해야 하지만, 반례에서는 모델이 더 고급 형태의 탐색으로 올바른 구성을 찾으면 됨
물론 이 탐색은 단순하지 않고 인상적이며, 반례와의 연결을 증명하기까지 많은 단계가 필요했음
그래도 새롭고 깊은 수학을 개발했다기보다는 기존 아이디어들을 연결한 것에 가깝다고 봄
이 엄청난 성과를 깎아내리려는 건 아니고, 정말 어딘가에 도달하고 있다고 생각함
순전히 느낌 기반이지만, 모델들이 새 수학 개발이 필요한 더 복잡한 추측을 증명할 수 있을 정도로 이론을 구성하는 데 멀지 않았고, 더 긴 시간 지평에서 작업할 수 있게 되는 문제라고 봄
증명 탐색과 반증 탐색은 때로 크게 다르지 않음
대부분의 경우 문제를 단순화하려고 경계를 조금씩 갉아먹음
예를 들어 어떤 것이 불가능하다는 걸 증명하려면 먼저 가능한 경우가 5개 가족뿐임을 보이고, 그중 4개가 불가능하다고 증명할 수 있음
그러면 문제의 80%가 풀린 셈이고, 반례를 찾는 경우에도 탐색이 80% 줄어듦
반례에서는 추측과 도약을 해보고 맞으면 괜찮지만, 증명에서는 그럴 수 없음
반면 반례를 찾고 나면 버린 막다른 길들은 보통 숨겨짐
시간을 더 길게 준다고 해서 LLM이 복소수나 심지어 일반 숫자를 무에서 만들어낸 인간식 수학을 하게 되지는 않을 것임
훈련 데이터 안의 것들을 아무리 오래 결합하게 해도 마찬가지임
전에도 말했듯이, AI는 McDonald's를 운영하기 전에 Fields Medal을 딸 것임
어려운 부분은 수학을 둘 체스판, 즉 Lean 같은 환경을 만드는 일이었고, 이제는 패턴 인식과 계산임
LLM은 시작일 뿐이며, 곧 Stockfish를 닮은 더 특화된 수학 AI가 나올 것임
하지만 이건 Lean으로 검증된 게 아님
순수하게 자연어 입력과 출력으로 이뤄졌고, 여러 면에서 오히려 반대 지점을 보여주는 꽤 흥미로운 시연이라고 봄
검증은 증명 확인까지 컴퓨터에 넘기고 싶을 때 들어가는 것임
현재 이 증명은 해당 분야 수학자 그룹이 손으로 검증했음
McDonald's 운영이라는 말에서 햄버거 프랜차이즈에 쓰인 가상의 “Manna” 관리 시스템 [0]이 떠오르는 디스토피아적 분위기가 있음
거기에는 많은 “역 켄타우로스” 자동화가 들어 있었음
Manna는 매 순간 해야 할 일 목록을 갖고 있었고, 계산대에서 주문이 들어오면 직원들에게 그 식사를 준비하라고 지시했음
화장실 청소, 바닥 닦기, 테이블 닦기, 보도 쓸기, 빵 해동, 재고 순환, 창문 닦기 같은 수백 가지 일을 추적하고 직원에게 하나씩 배정했음
교대가 끝나면 Manna는 늘 “오늘은 끝났습니다. 도와주셔서 감사합니다”라고 말했고, 헤드셋을 벗어 충전대에 올려놓음
6~8시간 동안 머릿속 목소리가 아주 세세하게 무엇을 하라고 지시했기 때문에, 헤드셋을 벗은 뒤 처음 몇 분은 늘 혼란스러웠고 식당을 나가려면 다시 뇌를 켜야 했음
[0] https://en.wikipedia.org/wiki/Manna_(novel)
동의하지 않음. AI는 McDonald's를 운영하기 전에 Fields Medal급 일을 할 수는 있겠지만, 둘 중 어느 쪽보다도 먼저 McDonald's를 잘 운영하게 될 것이라고 봄
Fields Medal은 그 둘 이후에도 한참 뒤일 것임
증명은 Lean으로 쓰이지 않았고 영어로 쓰였음
말도 안 되는 내용이 아닌지 확인하려면 인간 전문가의 검증이 필요함
수학을 둘 “체스판”은 이미 40년 넘게 있었음
여기서 Lean이 특별한 것도 아니고, 그냥 군중심리에 가까움
또한 Lean 훈련이 이 특정 모델에 얼마나 도움이 됐는지도 모름
이 증명은 대수적 수론의 예상 밖이고 정교한 아이디어를 초등 기하학 질문에 적용함
이런 성과들을 읽을수록, 모델의 힘 상당 부분은 가능한 모든 분야에 대한 사전 지식을 갖고 있고 새 영역으로 전이하는 데 문제가 없다는 데서 나온다는 느낌이 듦
이 도구들의 잠재적 아름다움은 오늘날 과학에서 인간이 겪는 과도한 초전문화 장벽을 뚫도록 도와줄 수 있다는 데 있음
초전문화는 한편으로 중요하지만, 다른 한편으로는 사람이 접근할 수 있는 도구와 영감을 제한함
정확한 지적이고 설명도 잘 됐음
우리가 초전문화될수록, LLM은 서로 다른 지평을 합치는 데 귀중한 도구가 됨
인간 지식의 총체가 일종의 집단 지성인 것 같음
예전에는 거기에 접근하는 비용이 비쌌지만, 이제는 더 이상 그렇지 않음
멋진 점은 누군가 집단 지성에 뭔가를 기여하면, 그것이 즉시 다른 사람들이 작업 중인 어떤 문제에도 적용될 수 있다는 것임
늘 수학에서 LLM의 역할에 회의적이었지만, 이 주장은 처음 봤고 꽤 설득력 있게 느껴짐
어쩌면 LLM은 해당 분야에 대한 더 수평적인 이해를 발전시키는 데 도움을 줄 수 있음
맞음. 사람들은 아마 시야가 제한돼서인지 깊이에만 집중하고 폭에는 덜 집중함
이건 범용 모델이기 때문에 물리학, 생물학, 역사 등에서도 박사 이상 수준의 지식을 갖고 있음
이렇게 많은 영역의 지식을 내재화한 하나의 “정신”이 얼마나 많은 것을 해낼 수 있는지 아직 제대로 이해하지 못하고 있다고 봄
OpenAI가 모델에 “박사급 지능”이 생길 것이라고 했을 때 모두가 웃었는데, 이제는 기준이 새 수학을 만들 수 있느냐로 옮겨간 게 흥미로움
박사급이 아니라 Leibniz, Euler, Galois급을 요구하는 셈임
그래도 코딩은 Stack Overflow를 전부 외운 주니어 개발자처럼 함
블로그 글에 링크된 이 작업의 요약된 사고 과정이 125쪽임
Anthropic이 Mythos로 암시하던 것과 꽤 비슷한, 말도 안 되는 규모의 추론 스케일임
오늘 SQL 모델에서 누락된 행 3개를 고치고 PR 하나 열려고 LOTR 두 권 분량에 해당하는 텍스트를 생성했으니, +1임
왜 Erdős 문제를 푼 얘기만 들리는지 궁금함
수학에는 수많은 미해결 문제가 있을 텐데, r/singularity와 r/accelerate에서 보는 ChatGPT의 “수학 돌파구”는 전부 Erdős 문제임
Erdős 문제는 명시적으로 제기됐지만 풀리지 않은 수학 문제 중 상당한 비중을 차지함
충분히 유명해서 사람들이 관심을 갖고, 동시에 사람들이 많은 노력을 들일 만큼 흥미롭지는 않은 문제들이기도 함
이미 누군가 제기한 문제를 푸는 것은 수학 연구에서 틈새 활동임
더 흔하게는 흥미로운 대상을 연구하고, 가진 도구로 풀 수 있는 방식으로 틀을 잡은 뒤, 해법을 찾으려 함
이상적인 경우에는 문제 설정과 해법 모두가 그 자체로 흥미로워짐
Erdős가 위대한 수학자였기 때문에 유명한 것임
한 세기 전 Hilbert 문제와 비슷함
인상적인 건 분명함
하지만 이 모델이 무엇으로 훈련됐는지 알 수 없으면, 어느 정도까지 “스스로” 도달했는지 판단하기 매우 어려움
AI 업계 전체는 여러 분야 전문가들에게 많은 돈을 주고 대량의 새 훈련 데이터를 만들게 해왔음
어디에서도 찾을 수 없는 새 훈련 데이터이고, 기업들은 이를 쌓아두며, 그 안에는 실제 독창적 아이디어가 들어 있을 수도 있음
누군가 이 문제를 풀어놓고 그냥 훈련 데이터에 넣었을 가능성은 낮지만, 솔직히 OpenAI라면 절대 안 했을 거라고도 못 하겠음
더 흥미로운 건 이 증명에서 “독창적”이라고 보이는 핵심 명제 대부분 또는 전부를 건드린 훈련 데이터를 이미 만들어냈을 가능성임
물론 알 수는 없음
하지만 이런 것들이 비밀스럽지 않은 방식으로 만들어지기 전까지 이 질문은 늘 남을 것임
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기