병합이 언제나 핵심이었다

어제, OpenAI의 내부 모델이 Erdős의 단위 거리 추측 (unit-distance conjecture)을 반증했습니다. 이 추측은 1946년의 것입니다. 어떤 이산 기하학자 (discrete geometer)에게 묻느냐에 따라, 조합 기하학 (combinatorial geometry)에서 가장 잘 알려진 혹은 가장 많이 시도된 미해결 문제 중 하나입니다. Paul Erdős는 여기에 500달러의 상금을 걸었습니다. 이를 한 줄씩 검토한 9명의 수학자에 따르면, 이 반증은 정확합니다. 이 문제가 실제로 무엇인지 말씀드리겠습니다. 제가 이해하는 데 영겁의 시간이 걸렸기 때문입니다 (제가 수학자가 아니라는 점을 말씀드렸나요??). 평면에 n개의 점을 원하는 곳 어디든 배치합니다. 서로의 거리가 정확히 1인 점의 쌍을 세어보세요. 그 수를 "단위 거리 (unit distances)"라고 부릅니다. n이 커짐에 따라 이 수는 얼마나 커질 수 있을까요? Erdős는 1946년에 이 수가 n 자체보다 아주 조금 더 빠르게 성장할 수 있음을 보여주었습니다. 그는 그보다 더 나아질 수 없다고 추측했는데, 공식적으로는 그 수가 n의 (1 + o(1))승에 의해 제한된다고 보았습니다. 여기서 o(1)은 n이 커짐에 따라 0으로 수렴합니다. 80년 동안의 인류의 노력은 대체로 그 상한선을 증명하는 쪽에 집중되어 있었습니다. 하지만 모델은 그러한 상한선이 존재하지 않음을 보여주었습니다. 고정된 지수를 통해 그 경계값을 계속해서 뛰어넘는 점 집합 (point sets)을 구성할 수 있습니다. 모델이 이 일을 해낸 방식은, 자세히 들여다보면 수학이 지금까지 해온 가장 평범한 방식입니다. 원래의 Erdős 구성은 좌표가 일반적인 정수인 점들의 정사각형 격자였으며, 단위 거리는 가우스 정수 (Gaussian integers), 즉 복소수 과정을 처음 배울 때 보았던 동일한 대상인 환(ring) Z[i]의 대수적 구조에서 나왔습니다. 자연스러운 일반화는 가우스 정수를 동일한 형태를 가진 다른 대수적 대상으로 교체하여 더 많은 단위 거리를 얻을 수 있는지 확인하는 것입니다. 그들이 무엇을 시도하든, 그 상한선은 완고하게 Erdős의 원래 수치로 회복되곤 했습니다.

동반 논문(companion paper)에서 Will Sawin의 성찰은 그 이유를 설명합니다. 실제로 계산해 보면, 자연스러운 일반화(natural generalization)가 원래의 구성과 동일한 답을 주기 때문에, 다른 것을 시도해야 할 명백한 이유가 없기 때문입니다. 바로 이 지점에서 우리는 새로움(novelty)을 발견하게 됩니다. 여기서 모델은 다른 것을 시도했습니다. 구체적으로, 모델은 구성을 가져와서 잘못된 부분을 변형했습니다. 즉, 체(field)를 고정하고 그 안에서 사용하는 소수(primes)를 바꾸는 대신, 소수를 고정하고 체를 변형하여, 1960년대부터 대수적 수론(algebraic number theory) 학자들에게 알려진 특정 체의 탑(tower of fields)을 따라 체의 차수(degree)가 무한히 커지도록 했습니다. 이를 잠시 시도해 보았던 Jacob Tsimerman에 따르면, 이 영역은 "매우 무섭습니다(very scary)". 명백한 계산 방식으로는 이것이 성공할 것이라는 어떠한 신호도 주지 않기 때문에 머릿속으로 파악하기가 어렵습니다. 이 단계까지 도달했던 인간들은 보통 이를 막다른 길로 치부하고 발길을 돌렸습니다. 하지만 모델은 발길을 돌리지 않았습니다. 또한 모델은 해당 추측이 참인지에 대해 직관적일 필요도 없었습니다. Arul Shankar가 그의 성찰에서 관찰했듯이, 모델의 사고 사슬(chain-of-thought) 중 "상당 부분"은 증명이 아닌 반례(counterexample)를 구성하는 데 소비되었습니다. Erdős는 사망할 때까지 46년 동안 자신의 추측을 믿었으며, 그 누구도 역사상 가장 위대한 수학자 중 한 명의 말을 불신할 이유가 없었습니다. 모델은 아무것도 믿지 않았습니다. 현대 수학의 모든 의미 있는 돌파구는 그 핵심에 있어 언제나 병합(merging)이었습니다. Andrew Wiles는 페르마의 마지막 정리(Fermat's Last Theorem)가 타원 곡선(elliptic curves) 및 모듈러 형식(modular forms)에 관한 질문과 동일한 문제라는 것을 깨달음으로써 이를 증명했는데, 이 세 분야는 Wiles 이전에는 눈에 띄게 동일한 논의 주제가 아니었습니다. Guth와 Katz는 대수 기하학(algebraic geometry)의 다항식 방법론(polynomial method)을 조합론(combinatorics)으로 도입함으로써 별개의 거리 문제(distinct distances problem)를 거의 해결했습니다. 랭랜즈 프로그램(Langlands program)은 겉보기에 분리된 영역들을 하나의 구조로 병합하려는 거대하고 미완성된 연습 중 하나입니다. 이 실타래를 아주 오랫동안 풀어낼 수 있습니다.

수학의 역사는 서로 별개라고 생각했던 것들이 다른 각도에서 바라본 동일한 것이라는 사실을 알아차려 온 역사입니다. OpenAI 모델이 바로 그 병합(merging)을 수행했습니다. 이 모델은 이산 기하학 (discrete geometry) 문제를 가져와서, 그것이 대수적 수론 (algebraic number theory)이라는 모자를 쓰고 있다는 것을 인식했습니다. 그리고 대수적 수론 선반으로 걸어가 1964년의 도구 (Golod-Shafarevich)를 집어 들었고, 이를 2007년의 도구 (Ellenberg-Venkatesh)와 결합했으며, 다시 이를 2021년의 도구 (Hajir-Maire-Ramakrishna)와 결합하여, 이전의 그 어떤 도구로도 수행할 수 없었던 일을 해냈습니다. 이는 인간이 400년 동안 수학에서 해온 일과 본질적으로 다르지 않습니다. 그다음 우리는 더 근본적인 질문에 도달하게 됩니다. 즉... 이것이 사고(thinking)인가 하는 점입니다. 통찰(insight)을 얻을 때, 그 통찰의 경험이란 저쪽에서 알고 있던 무언가가 이쪽에서 막혀 있는 무언가에 적용된다는 것을 인식하는 경험입니다. 낭만적인 버전의 설명과는 달리, 그것은 아무것도 없는 곳에서 새로운 사실이 갑자기 나타나는 것이 아닙니다. "아이디어를 떠올린다"라는 이름의 원자적 연산(atomic operation) 같은 것은 존재하지 않습니다. 저장된 경험들 사이의 패턴 매칭 (pattern-matching)이 존재하며, 그 패턴이 불을 밝히며 두 가지가 동일한 것이라는 사실을 깨닫는 순간이 존재할 뿐입니다. 그 순간이 바로 사고입니다. 만약 이것이 사실이라면, "AI가 정말로 사고하고 있는가?"라는 질문은 덜 흥미로운 질문이 됩니다. 사고란 그러한 움직임을 수행할 수 있는 것이라면 무엇이든 실행할 수 있는 특정한 연산입니다. OpenAI 모델은 그 어떤 개별 수학자보다 훨씬 더 방대한 저장된 라이브러리에 접근할 수 있고, 패턴 매칭을 더 빠르게 수행하며, 지치지 않고, 결정적으로 패턴 매칭이 모델을 공식적인 자격이 없는 영역으로 이끌더라도 당황하지 않습니다. 제 생각에 마지막 요소는 사람들이 생각하는 것보다 훨씬 더 중요합니다. 수학자들에게는 커리어가 있습니다. 커리어에는 전문 분야가 있습니다. 전문 분야를 벗어나는 데에는 사회적 비용이 따릅니다. 하지만 모델에게는 전문 분야도 없고 사회적 비용도 없습니다. 그렇다고 이것이 AGI인 것은 아닙니다... 아직은 말이죠.

모델이 문제를 선택한 것도 아니며, 모델 스스로 자신의 출력이 경청할 가치가 있다고 결정한 것도 아닙니다. 9명의 수학자들이 무보수로 귀중한 주말 시간을 할애하여, 다른 수학자들이 읽을 수 있는 논문 형태로 가공된 원시 출력물 (raw output)을 만들어냈습니다. Melanie Matchett Wood는 자신의 성찰에서 이 점을 가장 날카롭게 지적합니다. 만약 동일한 9명의 전문가가 한 달 전에 반례 (counterexample)를 찾기 위해 모였다면, 그녀는 그들이 반례를 찾아냈을 것이라고 생각합니다. 아무도 그들을 모으지 않은 이유는, 아무도 무엇을 물어야 할지 몰랐기 때문입니다. 모델의 기여는 단순히 증명 (proof) 그 자체만이 아니었습니다. 그것은 전문가들이 주말을 바쳐 진지하게 검토할 만큼 충분히 설득력 있는 결과물을 만들어낸 행위였습니다. 그 '충분히 설득력 있는' 임계값 (threshold)은 인간이 이를 강제하기 위해 수 세기 동안 사회적 기제 (social machinery)를 구축해 온 영역입니다. 따라서 진정으로 새로운 부분은 "AI가 생각할 수 있다"가 아닙니다. 우리는 적어도 DeepMind의 AlphaGo 37번째 수 이후로, 아마 그보다 훨씬 전부터 그 사실을 알고 있었습니다. 진정으로 새로운 부분은, 이제 이 연산 (operation)이 인간 수학자들이 스스로 진지하게 연구할 허락을 내리지 않았던 문제들을 겨냥할 수 있게 되었으며, 인간이 검토하기로 합의하는 임계값을 넘어서는 결과물을 만들어낼 수 있다는 점입니다. 질문하는 것은 여전히 우리의 몫입니다. 검토하기로 결정하는 것도 여전히 우리의 몫입니다. "이것은 내 토요일을 바칠 만큼 충분히 흥미롭다"라고 판단하는 것도 여전히 우리의 몫입니다. 이 과정들은 병합 (merging)과는 다른 연산임이 드러났으며, 우리는 이전에는 이를 알지 못했습니다. 이제는 압니다. 따라서 모델이 하나의 추측 (conjecture)을 부정하는 동안, 수학자들은 더 조용한 또 다른 추측을 부정했습니다. 즉, 서로 멀리 떨어진 분야들을 병합해야 하는 수학의 영역이 바로 수학자가 필요한 영역이라는 추측 말입니다. 우리는 그 경계선을 그을 새로운 지점을 찾아야 할 것입니다. 물론, 그 선을 긋는 것 또한 우리의 몫입니다. 지능형 데이터 파이프라인 (data pipelines)이 어떻게 AI 비용을 절감할 수 있는지 알고 싶으신가요? Expanso를 확인해 보세요. 아니면 하지 않으셔도 됩니다.

제가 감히 무엇을 하라고 말씀드릴 수는 없습니다.* 참고: 저는 현재 운영, 컴플라이언스 (compliance), 그리고 비용에 초점을 맞추어 머신러닝 (machine learning)을 위한 데이터 준비의 실제 현장 과제들에 대해 제가 목격한 내용을 바탕으로 책을 집필하고 있습니다. 여러분의 의견을 듣고 싶습니다! 원래 'The Merging Was Always the Point'에 게시되었습니다.

병합이 언제나 핵심이었다

요약

핵심 포인트

댓글