DeepMind의 새로운 AI가 발견한 기이하고 새로운 사고 방식

영상: DeepMind의 새로운 AI가 발견한 기이하고 새로운 사고 방식
채널: Two Minute Papers
길이: 7분 30초
출처: 자막 (자동 생성, 영문)

DeepMind의 새로운 AI가 방금 놀라운 일을 해냈습니다. 아니, 정말 그럴까요? 보시다시피, 같은 헝가리 출신의 전설적인 수학자 Paul Erdős는 세상에 해결해야 할 천 개 이상의 미해결 문제 (open problems)를 남겼습니다. 보세요, 우리 헝가리인들은 문제가 참 많습니다. 우리는 어떻게든 기여해야 하고, 이것이 우리가 기여하는 방식입니다. 이제, AlphaProof Nexus라고 불리는 DeepMind의 새로운 AI는 그중 약 350개를 해결하려고 시도했고, 95.7%의 실패율을 기록했습니다. 기본적으로 9개를 해결했으며, 문제당 비용은 불과 수백 달러였습니다. 이것이 좋은 결과일까요? 글쎄요, 정말 믿기지 않을 정도로 훌륭하다고 말해야겠습니다. 왜일까요? 이것들은 아직 아무도 해결하지 못한 수십 년 된 문제들이기 때문입니다. 제가 듣고 있는 또 다른 비판의 흐름은 이것이 근본적으로 새로운 일을 해낸 것은 아니라는 점입니다. 그것이 문제일까요? 저는 아니라고 생각합니다. 왜일까요? 4년 전을 되돌아봅시다. GPT-3가 나왔을 때 사람들은

전혀 아닙니다.
오늘날 누구나 그렇게 하고 있습니다. 자, 그럼 여기서 새로운 점은 무엇일까요? 보세요, 우선 수학자가 Lean에 문제와 해답을 적습니다. 증명(Proof) 부분은 비워둡니다. 그런 다음, AI 에이전트(AI agent)가 이를 해결하려고 시도합니다. 당연히 실패합니다. 너무 어렵거든요. 그러면 또 다른 AI가 이를 검토하고 "음, 이건 별로네요"라고 말합니다. 하지만 왜 별로인지에 대해서도 말해줍니다. 하지만 여기서 핵심은 바로 이 부분입니다. 이것은 이전의 두 가지 해답을 읽고 승자를 선택하는 더 저렴한 판사 AI(judge AI)입니다. 두 해답 모두 틀릴 수 있지만, 그중에서 조금이라도 더 나은 것을 선택합니다. 자, 이것은 천재적입니다. 왜일까요? 동료 학자 여러분, 종이를 꽉 잡으세요. 왜냐하면 이것은 마치 해답들이 플레이어가 되고, 각 플레이어가 헝가리 출신의 Arpad Elo의 이름을 딴 ELO 점수를 받는 체스 시스템과 비슷하기 때문입니다. 보세요, 때로는 우리도 해답을 제공합니다. 그래서 이제 각 증명은 점수를 갖게 됩니다. 그리고 우리는 다시 시작합니다. 하지만 처음부터 다시 하는 것이 아닙니다. 아니, 아니, 아니죠. 우리는 가장 높은 점수를 받은 '잘못된 해답'에서 시작합니다. 즉, 이것은 이제 하나의 토너먼트(tournament)가 됩니다. 이것을 계속해서 반복합니다. 정말 멋지죠. 그리고 우리는 검증기(validator)가 "네, 이건 통과입니다"라고 말할 때까지 이 토너먼트를 계속해서 실행합니다. 그러면 우리는 형식적 증명(formal proof)을 얻게 됩니다. 완벽하게 해낸 것이죠. 이것이 놀라운 이유는 신뢰할 수 없는 AI를 가져와서 계속해서 반복 실행함으로써, 그 AI가 아무리 거짓말을 늘어놓더라도 우리는 여전히 이로부터 신뢰할 수 있는 시스템을 얻을 수 있기 때문입니다. 신뢰할 수 없는 부품들로 만들어진 신뢰할 수 있는 시스템이라니. 정말 마음에 듭니다. 그리고 이 모든 연구를 우리 모두를 위해 무료로 공개했다는 사실 또한 말이죠.

최고입니다(Chef's kiss). 이 연구에 참여한 모든 분께 정말 감사드립니다. 정말 살기 좋은 시대네요. 하지만 잠깐, 흥미롭게도 지금까지 AI의 역사는 우리가 AI를 더 똑똑하게 만드는 것이었습니다. 이제 이야기가 바뀌었습니다. 우리는 AI를 더 똑똑하게 만들 필요가 있는 것이 아니라, 그 주변의 고삐(harness)를 더 단단하게 조일 필요가 있습니다. 좋은 판사를 부여하세요. 천 번이고 만 번이고 시도하게 하세요. 그러면 AI는 믿기지 않을 정도로 어려운 문제들에 대해 천천히 올바른 해답을 찾아낼 것입니다.

따라서 여기서 지능은 단지 모델 안에만 있는 것이 아니라, 모델을 둘러싼 루프 (loop) 안에 존재합니다. 모두가 다양한 종류의 루프를 실험하고 있으며 이는 매우 즐거운 일입니다. 저 또한 lambda에서 이를 수행하고 있습니다. 좋습니다, 이 기술조차 완벽하지는 않습니다. 한계점들이 있죠. 다시 말해, 주류 미디어에서는 듣지 못하는 이야기들입니다. 첫째, 왜 1,200개의 Erdős 문제 전체를 대상으로 테스트하지 않았을까요? 음, 여기에는 약간의 선택 편향 (selection bias)이 있습니다. 제 생각에 그들은 공식화 (formalize)하기 더 쉬운 350개의 하위 집합을 선택한 것 같습니다. 그것이 문제일까요? 제 관점에서는 전혀 아닙니다.

어딘가에서는 시작해야 합니다. "음, 50년 된 미해결 문제조차 신뢰성 있게 풀지 못하잖아"라고 말하는 사람들 중 하나가 되지 맙시다. 이 모델이 달성한 것은 놀랍습니다. 둘째, 더 작은 모델들은 단 하나의 문제도 풀지 못했습니다. 제로입니다. 아무것도요. 여전히 핵심에는 강력한 AI 시스템이 필요합니다. 이는 흥미로운 사례인데, 사람들은 초고속의 저렴한 모델이 프런티어 (frontier) 모델과 불과 몇 퍼센트 차이밖에 나지 않는다는 벤치마크 (benchmark)들을 계속해서 보여주기 때문입니다. 하지만 제가 직접 테스트해 볼 때마다, 그것들은 항상 훨씬 더 약해 보입니다. 이번 결과는 그 점을 강화하는 것처럼 보입니다. 또한, 사람들은 아마도 다음과 같은 고민을 시작할 것입니다. "토너먼트 라운드 수를 줄이고 더 큰 모델을 사용할 것인가, 아니면 라운드 수를 늘리고 더 작은 모델을 사용할 것인가?" 비용이 동일하다고 가정한다면 말이죠. 흥미로운 질문입니다. 이제, 이것이 우리를 어디로 데려다 놓았을까요? 음, AI가 인간이 56년 동안 풀지 못한 9개의 수학 문제를 각각 수백 달러의 비용으로 풀어냈습니다. 그리고 그들은 거짓말을 할 수 없는 심판 (judge)을 상대로 신뢰할 수 없는 AI가 수천 번 실패하게 함으로써 이를 해냈습니다. 우리는 숫자 더하기조차 못 하던 단계에서 4년이라는 기간 만에 수십 년 된 미해결 문제들을 푸는 단계로 넘어왔습니다. 저는 이것이 미친 듯한 발전이라고 생각합니다. 하지만 한계는 존재합니다. 또한, 과거에는 모델만이 유일하게 중요한 요소였습니다. 이제는 모델을 활용하는 방식인 하네스 (harnesses), 그리고 모델을 둘러싼 루프 (loops) 또한 중요합니다. 최근 저는 이 프로젝트의 리더 중 한 명인 Pushmeet과 이야기를 나누었는데, 그는 정말 대단한 사람입니다. 저는 그저 세계를 여행하며 그와 같은 놀라운 과학자들로부터 배우고, 그 지식을 동료 학자인 여러분에게 전달하고자 노력하는 학생일 뿐입니다.

그리고 [헛기침] 이렇게 똑똑한 청중 여러분 앞에서 이에 대해 이야기할 수 있게 되어 매우 영광입니다.

이것이 올바른 방식이라고 생각하신다면 종 모양 아이콘(알림 설정)을 눌러주세요. 지난 수년 동안, 그리고 천 개가 넘는 영상 속에서 저와 함께해주셔서 정말 감사합니다. 우리는 LLM (Large Language Models) 시대에 걸맞은 새로운 도구들이 필요합니다. 이제 Weights & Biases에는 LLM 애플리케이션을 자신 있게 반복 개선(iterate)할 수 있는 경량 툴킷인 weave가 있습니다. traces를 사용하여 앱의 각 단계를 통해 데이터가 어떻게 흐르는지 디버깅(debug)하고, evaluations를 사용하여 진행 상황을 측정하세요. 정말 최고입니다. 지금 바로 wnb.me/papers에서 사용해 보시거나, 아래 설명란의 링크를 클릭하세요.

DeepMind의 새로운 AI가 발견한 기이하고 새로운 사고 방식

요약

핵심 포인트

댓글