SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

[https://www.youtube.com/watch?v=nbZA4N7BDCU]
타오쩌쉬안이 이 연설에서 핵심적으로 전달하는 내용은 쉽게 말해 다음과 같은 몇 가지입니다:

1. 수학계가 현재 '소화불량'을 겪고 있다

과거 수백 년 동안, 수학 연구의 속도는 매우 느렸습니다. 하나의 성과가 나오면 동료 심사(peer review)와 반복적인 검증 과정을 거쳐 천천히 소화되고, 마침내 교과서에 실리게 됩니다. 이 과정 전체는 마치 순조로운 생산 라인 같았습니다.

하지만 이제 AI가 등장하면서, 증명을 작성하고 문제를 푸는 속도가 매우 빨라졌습니다. 마치 고속 인쇄기처럼 '생산'된 결과물들이 창고를 가득 쌓아 올립니다. 하지만 인간 심사위원들은 이를 감당할 시간이 부족하며, 게다가 많은 AI 생성 논문의 질도 낮습니다. 이로 인해 '증명 소화불량(proof indigestion)', 즉 학계의 '교통 체증'이 발생하고 있습니다.

2. 옛날 방식으로 새 차를 운행할 수 없다

타오쩌쉬안은 비유를 들었습니다. AI는 막 발명된 자동차와 같고, 현재의 학술지나 컨퍼런스 시스템은 여전히 수백 년 전 마차와 보행자를 위해 지어진 '돌길'입니다. 차 자체는 훌륭하지만 길이 너무 좁고 혼잡하여, 사람과 차가 뒤섞이면서 결국 아무도 움직일 수 없게 됩니다. 단순히 자동차(AI)만 업그레이드한다고 해결되지 않으며, 길 자체를 다시 건설해야 합니다 (연구 과학 인프라 개혁).

3. 새 길을 어떻게 만들까? 경쟁(Competition)으로!

그의 아이디어는 이렇습니다. AI와 인간을 같은 트랙에서 경쟁시키지 말고, 각각 '고속도로'와 '보행자 도로'를 따로 건설해야 한다는 것입니다. 그가 주도한 SAIR 대회는 바로 이 두 개의 새로운 길입니다.

그는 특히 두 가지 대회를 중점적으로 소개했습니다:

첫 번째 대회: 증류 챌린지 (Distillation Challenge)
- 무엇을 하는가? 그들은 이전에 2,200만 개의 대수 판단 문제로 구성된 초대형 데이터베이스를 만들었습니다. 최고 수준의 AI 모델은 이 문제를 풀 수 있지만, 시간과 비용이 많이 듭니다.
- 무엇을 겨루는가? 이번 대회에서는 참가자들이 매우 단순한 작은 모델에게 '시험 부정행위 자료'(1페이지 분량의 프롬프트)를 작성하도록 합니다. 최소한의 비용으로 이 2,200만 문제 중 가장 많은 문제를 맞히게 만드는 사람이 승리합니다.
- 결과? 현재까지 최고의 '부정행위 자료'는 모델의 정확도를 50%(추측 수준)에서 80%로 끌어올렸습니다.
**두 번째 대회: 역가롤바 문제 /

1 19세기 말의 자동차 은유: 자동차가 처음 등장했을 때, 길에는 19세기식 좁은 석판길만 있었습니다. 사람과 차가 혼재하고 교통 규제가 없으며 매우 혼란스러웠습니다. 나중에 기술이 발전(더 빠르고, 더 연비가 좋고, 더 안전하게)해도 정체 문제를 해결할 수 없었습니다. 왜냐하면 길이 부적절했기 때문입니다.
2 수학/과학의 현재 위치: 이는 마치 '석판길을 달리는 자동차' 단계와 같습니다. AI는 자동차이고, 학술지나 컨퍼런스(학회)가 오래된 길입니다.
3 해결책은 계층적 인프라 구축: 나중에 사회는 자동차 전용차로, 기차 전용선, 오토바이 차로, 보행자 도로, 그리고 소수의 혼합도로를 분리했습니다. 공존하지만 서로 방해하지 않습니다. 도시도 '자동차에 편향'될 수 있습니다. 완벽한 해결책은 아니지만, 모든 것이 뒤섞인 것보다는 훨씬 낫습니다.
4 수학에 주는 시사점: 학술지와 전통적인 연구 프로세스의 가치('보행자 도로')를 유지하는 동시에, AI가 안전하게 담을 수 있는 새로운 트랙을 구축해야 합니다. 이것이 그가 SAIR(Safe AI for Research)에서 하고 있는 일이며, 경진대회가 그중 하나의 장소입니다.

**제3부

SAIR 경진대회 중 하나: 증류 챌린지 (Distillation Challenge) (약 42%–62%)

1 배경은 'Equation of Theories' 프로젝트에서 비롯: 2년 전 Tao Te-Chuan은 대중 참여 실험을 통해 대수학 분야에서 현대 도구를 사용하여 2,200만 개의 참/거짓 문제를 생성했습니다(난이도 ≈ 대학원생이 한 시간 동안 한 문제). 최종적으로 이 모든 문제가 해결되어 방대한 대수학 데이터셋을 얻었습니다.
2 개별 문제는 AI가 어렵지 않으나, 전체 구조는 아무도 모름: 임의의 문제를 최첨단 모델에 던져 30분과 몇 달러의 컴퓨팅 파워를 사용하면 99% 확률로 맞힐 수 있습니다. 하지만 이것으로는 데이터셋의 '특징'이 무엇인지, 압축적으로 설명할 수 있는지 알 수 없습니다.
3 문제 설계: 비싼 최첨단 모델을 사용할 필요 없이, 매우 저렴한 오픈소스 소형 모델 (순수 구동 정확도 ≈ 51%, 무작위보다 약간 나음)을 사용합니다. 대회는 참가자들에게 이 '약한 AI'가 2,200만 문제의 '대수학 중간고사'에서 점수를 얻도록 **한 페이지짜리 치트 시트(요약 자료)**를 제출하게 합니다. 치트 시트는 사람이 읽을 수 있어야 하고, AI도 읽을 수 있어야 합니다.
4 목표: 2,200만 문제 뒤에 숨겨진 지식을 한 페이지로 증류하여 데이터셋의 본질을 추출하는 것입니다.
5 현재 진행 상황: 최적화된 치트 시트는 약한 모델의 정확도를 50%에서 80% 수준으로 끌어올려 20~30 퍼센트포인트 향상시켰습니다. 다음 단계(진행 중)는 약한 모델이 단순히 맞고 틀리는 것뿐만 아니라, 증명과 상세 설명을 작성할 수 있도록 하는 것입니다. 이는 훨씬 어렵습니다.
6 한 페이지의 모습: 슬라이드에 있는 치트 시트는 빽빽해 보이지만, 실제로 이러한 유형의 문제에 대한 방대한 정보를 인코딩하고 있습니다 (한 페이지 제한으로 형식이 간결합니다).

참고: Tao Te-Chuan은 시간이 부족하여 두 번째 경진대회는 건너뛰고 세 번째 것을 직접 설명했습니다.

**제4부

**SAIR 경진대회 3: 역가롤와 문제 / LMFDB

1 현재의 작은 규모: 세 가지 경진대회 모두 매우 적은 예산으로 운영되고 있으며, 소수의 엔지니어와 약간의 컴퓨팅 자원(Computing power)만 투입되고 있습니다.
2 확장 의지: 향후에는 더 큰 규모, 더 높은 컴퓨팅 자원, 그리고 높은 수준의 상금이 걸린 경진대회를 개최하기를 희망합니다. 현재는 모두 수학 분야에 집중되어 있는데, 이는 수학이 "제출 내용의 검증이 가능하고 점수 산정이 용이하여" 가장 깨끗한 실험실(Experimental field) 역할을 하기 때문입니다.
3 원칙적으로 타 과학 분야로 확장 가능: "대중이 수집하고자 하는 대규모 데이터셋"과 "크라우드소싱(Crowdsourcing)으로 수행 가능한 작업"이 있다면, 협력을 통한 경진대회 개최를 논의할 수 있습니다. SAIR는 최근 **공식 제안 요청(Formal call for proposals)**을 발표할 준비를 하고 있으며, 내부적으로는 이사회 이메일을 통해 어떻게 진행하는 것이 최선일지 논의 중입니다.
4 마무리: 타오쩌쉬안(Terence Tao)은 다음 기회에 이 경진대회들의 후속 상황을 다시 보고하겠다고 말하며 마무리했습니다.

Insights

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

요약

핵심 포인트

댓글

IPO 이후 매도세가 나타난 SpaceX 주식의 남은 상승 여력은 어느 정도인가

Amazon, 소프트웨어 지출 붐의 결실을 거둘 준비가 되었을 수도 있다

ColdFusion CFMail, 보안 업데이트 후 작동 오류: Felix 캐시 문제 진단하기

프랑스와 중국 투자자들, 영국 자전거 제조사 Brompton에 투자

Amazon, 소프트웨어 지출 붐의 결실을 거둘 준비가 되었을 수도 있다

ColdFusion CFMail, 보안 업데이트 후 작동 오류: Felix 캐시 문제 진단하기

프랑스와 중국 투자자들, 영국 자전거 제조사 Brompton에 투자