AI 연산 능력이 1,000,000배 도약한 후에는 어떤 일이 벌어질까요? | Jeff Dean - Insights | Molayo

비디오: AI 연산 능력이 1,000,000배 도약한 후에는 어떤 일이 벌어질까요? | Jeff Dean
채널: Two Minute Papers
길이: 28분 35초
출처: 자막 (자동 생성, 영어)

내부적으로 '불타는 데이터 센터(data centers on fire)'라고 불리는 채팅 그룹이 있었는데, 그곳에서는 아주 흥미로운 [웃음] 흥미로운 사건들이 일어나곤 했습니다.

멀리 떨어진 초신성이 폭발합니다. 우주선(cosmic ray)이 메모리 셀을 타격하여 0이 1로 뒤집힙니다.
정말 그런 일이 일어나나요?
오, 그럼요.
그래서 제 질문은, 당신에 대한 이런 Chuck Norris 스타일의 농담을 즐기시나요?
사실일 수도 있죠. 음
[웃음]
당신이 해결하려고 노력했지만, 여러 번 시도했음에도 끝내 해결하지 못한 문제 하나.
이런 일이 일어나고 있다는 게 믿기지 않지만, 전설적인 엔지니어이자 Google의 수석 과학자인 Jeff Dean과 대화하게 되었습니다. 그는 역사상 가장 전설적인 AI 연구소 중 하나인 Google Brain을 이끌었습니다. 그는 수천 대의 컴퓨터가 하나처럼 작동하도록 가르친 MapReduce를 공동 개발했습니다. 그는 방대한 AI 연구의 핵심 엔진인 TensorFlow를 공동 구축했습니다. 그리고 이 모든 업적 덕분에 사람들은 그를 컴퓨터 과학의 Chuck Norris라고 부릅니다. 네, 저도 그에게 그에 관한 농담을 하나 할 겁니다. 이제 제가 경영진들과의 인터뷰를 보면, 모두가 중국이나 세금 같은 것들에 대해 묻습니다. 보세요, 저는 그런 것에 대해서는 아무것도 모릅니다. 저는 그저 연구에 대해 이야기하는 것을 좋아하는 학생일 뿐입니다. 그래서 제 목표는 조금 더 깊이 들어가서, 아마도 그만이 답을 알고 있을 법한 질문들을 던지는 것이었습니다. 이는 정말 놀라운 일입니다. 또한 그조차 아직 해결하지 못한 문제들에 대해서도 물어볼 것입니다. 그리고 Google의 비결(secret sauce)에 대해서도 물어보고 무언가를 얻어낼 수 있을지 확인해 보겠습니다. 그리고 그 이상도요. 동료 학자 여러분과 이 내용을 함께 나눌 수 있게 되어 정말 기쁩니다. 우리 모두 함께 배울 수 있도록 말이죠. Jeff가 이토록 많이 웃고 즐거워하는 모습을 전에 본 적이 있는지 잘 모르겠네요. 그도 즐거웠기를 바랍니다. 다시 한번 말씀드리지만, 이것은 정말 엄청난 영광입니다. 제가 그 자리에 앉아 있었다는 게 믿기지 않습니다. 영상 부분에 약간의 제작 문제가 있었습니다. 그 점에 대해 사과드립니다. 또한, 저는 너무 긴장해서 종이를 제대로 들고 있기도 힘들었습니다.

자, 동료 학자 여러분,
Jeff Dean과 함께 배워봅시다.
Jeff, 이 자리에 함께해주셔서 정말 감사합니다.
작년에 우리가 잠시 이야기를 나누었을 때 당신으로부터 정말 많은 것을 배웠습니다. 정말 놀라운 경험이었죠. 그러다 우리가 이 일을 함께하게 되었다는 메시지를 받고 정말 기뻤습니다. 그러니 이 자리에 함께해주셔서 정말 감사하며, 당신의 지식 중 아주 작은 부분이라도 동료 학자들과 나눌 수 있게 되어 정말 영광입니다.

작년에 대화 나누어 즐거웠고, 이번 시간도 매우 기대됩니다.
감사합니다. 감사합니다. 자, 모든 사람이 LLM (Large Language Models)을 위한 학습 데이터 (training data)가 고갈되고 있다고 말합니다. 하지만 당신은 아직 세상에 데이터가 충분히 남아 있다고 말씀하셨죠. 어떤 의미인가요?
네, 제 생각에 모든 사람이 학습 데이터가 고갈되고 있다는 관점을 가지고 있는 것 같습니다. 실제로 전 세계의 공개된 텍스트 데이터 (public text data)를 상당히 많이 사용한 것은 사실입니다. 하지만 우리가 아직 본격적으로 학습에 활용하지 않고 있는 흥미로운 비디오 데이터 (video data)가 아주 많다고 생각합니다.
또한, 합성 데이터 (synthetic data)를 생성하여 이를 학습에 사용하는 흥미로운 방식들도 많이 존재합니다.
음.
그리고 우리가 이미 보유하고 있는 데이터에 대해 더 많은 반복 학습 (passes)을 수행하여 모델의 능력을 더욱 향상시키거나, 우리가 가진 모든 데이터 조각으로부터 훨씬 더 많은 정보를 얻을 수 있게 해주는 알고리즘 기술 (algorithmic techniques)을 고안할 수도 있다고 생각합니다. 따라서 저는 이것이 발전을 가로막는 장애물이 될 것이라고는 크게 걱정하지 않습니다. 우리가 할 수 있는 일들이 아주 많이 남아 있는 것 같습니다.
당신이 언급했듯이 시뮬레이션 데이터 (simulation data)가 아주 많아지면, 조만간 대부분의 데이터가 AI에 의해 생성될 것이라는 말도 있습니다. 그러면 그 데이터가 또 다른 AI를 학습시키는 데 사용되고, 결국 모두가 똑같은 것을 학습하게 된다는 것이죠. 하지만 당신은 '잠깐만요, 그래도 도움이 됩니다'라고 말씀하셨습니다. 제 생각에 그 논거는 충분한 연산 능력 (compute)만 있다면 방대한 데이터를 처리할 수 있다는 것이었습니다. 그리고 만약 데이터라는 건더기 속에 아주 작은 유용한 바늘 하나가 들어있더라도, 시스템이 그것으로부터 학습할 수 있다는 것이었죠. 이것이 사실인가요?

제 이전의 형편없고 작은 실험들 때문에, 그것은 전혀 사실이 아니었습니다. 그래서 데이터에 매우 주의를 기울여야 했죠.

네, 제 말은, 일반적으로는 그것이 사실이라고 생각합니다. 물론 이것을 현실로 만들기 위해서는 바로잡아야 할 세부 사항이 아주 많겠지만요. 예를 들어, 상당히 높은 수준으로 표현된 코딩 문제를 해결하는 방법을 알아내기 위해 강화학습 (RL) 훈련과 롤아웃 (rollouts)을 수행한다고 생각해 보세요. 그렇죠? 그러면 이러한 문제들에 대한 솔루션을 생성하는 수백 또는 수천 가지의 서로 다른 방법들을 탐색할 수 있을 것이고, 이 결과물들에 대해 '코드가 컴파일이라도 되는가?'와 같은 필터들을 적용할 수도 있을 것입니다. 음, 시작하자마자 그중 800개는 바로 버릴 수 있겠죠. 유닛 테스트 (unit test)를 통과하는가? 성능이 좋은가? 이런 식으로, 문제에 대한 잠재적인 수많은 솔루션 중 어떤 것이 당신이 찾고 있는 특성, 즉 어떤 의미에서의 보상 (reward)을 실제로 가장 높게 생성하는 것인지에 대해 정말로 집중하기 시작할 수 있습니다. 그리고 저는 그것이 분명히 사실이라고 생각합니다. 즉, 더 많은 연산량 (compute)은 더 흥미로운 솔루션들을 만들어낼 것이고, 그런 것들이 다시 훈련 데이터 (training data)로 들어갈 수 있다는 것이죠. 그것들은 데이터 증강 (data augmentation) 기술로 풍부해질 수 있습니다. 예를 들어, 제가 Python으로 솔루션을 생성했다면, 이제 Go 언어로 솔루션을 생성하여 더 많은 Go 프로그래밍 언어 훈련 데이터를 가질 수 있는 식이죠.
그것은 정말 놀라운 종류의 증강이네요. 이전의 합성곱 신경망 (CNN)에서의 증강은 그저 이미지를 몇 픽셀 이동시키는 정도였잖아요. 그런데 여기에서의 증강은 완전히 다른 프로그래밍 언어 같은 것이 될 수 있군요.
네, 제 말은, 우리는 종종 코딩 기반의 문제들을 자연어(natural language)로부터 시작하는 것으로 생각하곤 합니다. 자연어는 종종 매우 불충분하게 정의되어 있죠. 예를 들어, "멋진 스페이스 인베이더 게임을 만들어줘" 같은 식으로 말이죠. 하지만 실제로, 당신이 원하는 대로 작동하는 프로그램이 이미 있고 그것을 번역하고 싶다면, 그것은 정말 멋진 일입니다.

왜냐하면 사실상 당신의 프롬프트(prompt)는 당신이 원하는 시스템의 완전히 명시된 동작(fully specified behavior)이며, 당신은 단지 어떤 이유에서든—아마도 더 나은 성능이나 더 나은 안전 특성 때문일 수도 있겠지만—그것을 다른 언어로 바꾸고 싶을 뿐이기 때문입니다. 그래서 우리는 내부적으로 Python으로 작성된 일부 도구들을 통해 이를 확인해 왔습니다. 사람들은 그저 이렇게 말할 수 있었죠.

"이 코드와 실제 Python 코드베이스에 대한 모든 테스트를 사용해서, 그것의 다른 버전들을 만들어 주세요."

그리고 훨씬 더 빠른 솔루션들을 찾아냈습니다. 즉, 기본적으로 동일한 양의 데이터로부터 갑자기 훨씬 더 많은 것을 얻어낼 수 있게 된 것입니다.

네, 맞습니다. 그래서 당신이 데이터에 대해 걱정하지 않는 것이군요.

[헛기침] 좋습니다. 이제 Bill Dally는 현대적인 데이터 센터에서 일어나는 일의 약 90%가 더 이상 학습(training)이 아니라고 말했는데, 저는 이 점이 정말 놀라웠습니다. 바로 추론(inference)이라는 것이죠. 즉, 상대적으로 말하자면 학습은 줄어들고 사용(using)이 더 많아졌다는 뜻입니다. 음, 그러한 변화가 Google에서 하드웨어를 설계하는 방식을 어떻게 변화시키나요?

네, 제 말은, 우선 데이터 센터에서는 추론이나 학습이 아닌 다른 일들도 많이 일어나고 있습니다. 우리가 실행하는 검색, Gmail 등 모든 애플리케이션 같은 것들 말이죠. 하지만 머신러닝(machine learning) 워크로드(workload) 측면에서 보자면, 우리가 수행하고자 하는 전체 연산(compute)에서 학습이 차지하는 비중이 점점 줄어들고 있는 것은 사실입니다. 왜냐하면 [헛기침] 수행하고자 하는 추론 워크로드가 너무나 많기 때문입니다. 그리고 추론 워크로드에는 오프라인 추론(offline inference), 강화학습(RL) 학습 중의 RL 롤아웃(rollouts), 그리고 사용자 요청을 처리하거나 에이전트 기반 동작(agent-based behavior)을 위한 온라인 추론(online inference)이 모두 포함됩니다.

그러한 변화와 이 두 종류의 연산이 가진 서로 다른 특성 때문에, 이제 하드웨어에서 추론 워크로드에 훨씬 더 특화하는 것이 훨씬 더 타당해졌습니다. 예를 들어, 그 특성들이 상당히 다르기 때문입니다. 더 낮은 정밀도(lower precision)가 필요하며, 특정 모델에 대해 매우 방대한 양의 요청을 처리해야 하니까요.

모델 가중치(model weights)는 추론(inference) 시점에 반드시 변해야 하는 것은 아닙니다. 이러한 모든 요소들은 하드웨어를 위한 매우 다른 솔루션들로 이어지며, 특화(specializing)를 통해 훨씬 더 많은 에너지 효율성을 얻을 수 있습니다. 그래서 저는 현재와 미래에 이 분야에서 훨씬 더 많은 것을 보게 될 것이라고 생각합니다. 우리는 이미 약 한 달 전쯤 발표한 TPU 8i 및 8t 칩을 통해 이를 실행해 왔습니다. 하지만 저는 앞으로 훨씬 더 많은 특화(specialization)를 보게 될 것이라고 생각합니다.

FP4조차 어느 정도 작동한다는 말씀은 정말 놀랍네요. 제가 처음 그 이야기를 들었을 때는 '그게 어떻게 가능하겠어, 유용하게 쓰일 리가 없어'라고 생각했거든요. 그런데 실제로 작동하네요.

네, 만약 15년 전의 컴퓨터 과학자에게 그 말을 했다면 그들은 아마 이렇게 말했을 겁니다.

'네, 그건 숫자가 충분하지 않아요'라고 말이죠.

네, 맞아요, 정확합니다.

저는 가끔 이런 논문들을 보는데, 점들 사이의 회전(rotations)을 이용한 거리 보존 변환(distance preserving transforms)이나 온갖 종류의 압축(compression) 기법들이 나오더라고요. 하지만 그럼에도 FP4라니, 믿기지 않습니다.

지수(exponent)를 위한 비트(bits)가 많지 않으니까요. 네, 그리고 그것이 작동한다는 것은 좋은 신호입니다. 네, 맞아요. 우리가 이보다 더 낮출 수 있을지는 모르겠습니다. 당신은 어떻게 생각하시나요? 더 낮추는 것이 가능할까요? 제 생각에 사람들은 훨씬 더 낮은 정밀도(lower precision)를 사용하면서, 일정 수의 저정밀도 가중치마다 스케일링 인자(scaling factor)를 두는 방식 등을 보고 실험하고 있는 것 같습니다. 그렇게 하면 2비트 정수(two-bit integer), 1비트 정수(one-bit integer) 등 그것이 무엇이든 간에, 다른 모든 저비트(lower bit) 정밀도 형식들 사이에서 공유되는 약간 더 높은 정밀도의 요소를 얻을 수 있는 것처럼 보입니다. 2비트 부동 소수점(two-bit float)이라고 말하는 사람은 아직 못 들어봤는데, 그게 무엇을 의미할지 확실치 않아서요.

하지만 네, 제 생각에 스케일링 인자(scaling factor)를 더하는 방식이 꽤 멀리까지 갈 수 있게 해주는 것 같습니다. 문제는 스케일링 인자가 얼마나 자주 필요한가 하는 점이죠. 64개, 128개, 아니면 256개의 가중치마다 필요한 걸까요?

사전 학습(pre-training)과 사후 학습(post-training)은 오늘날 일반적으로 별개의 단계로 이루어집니다.

그 분리가 계속 유지될 것이라고 보시나요, 아니면 능력이 향상됨에 따라 두 단계가 하나로 합쳐질 것이라고 예상하시나요?

네, 제 말은 이들이 별개의 단계로 나뉘어 하나를 하고 나서 다른 하나를 하는 방식이 지적으로는 다소 불만족스럽다고 느낍니다.
개념적으로 올바른 방법은 데이터를 관찰하는 기간과, 데이터를 통해 얻은 새로운 지식을 사용하려고 시도하는 기간을 서로 교차(interleave)시키는 것이라고 생각합니다.
DQN의 경험 재현(experience replay) 같은 방식 말이죠.
맞습니다. 그리고 이제 어떤 환경에서 행동을 취해야 합니다. 그것이 시뮬레이션된 환경일 수도 있고, 로봇이 있는 세상일 수도 있고, 무엇이든 간에 말이죠. 그리고 그러한 행동으로부터 배워야 합니다. 왜냐하면 단순히 수동적으로 앉아서 토큰이 흘러가는 것을 보는 것보다(사실 대부분의 사전 학습(pre-training)이 바로 이것이죠), 실제로 행동을 취하고 그 결과를 관찰하거나, 코드를 작성하고 그 코드가 작동하는지 확인하는 것에서 훨씬 더 많은 이득을 얻을 수 있다고 생각하기 때문입니다.
그것을 교차(interleaved) 방식으로 말씀하신 것이 정말 흥미롭네요. 왜냐하면 두 가지를 통합한다는 말을 들었을 때 제 머릿속에 떠오르는 것은 연속적(continuous)인 것이기 때문입니다. 즉, 연속 학습(continuous learning) 말이죠. 하지만 동시에 사람들은 모델을 테스트해야 합니다. 그냥 모델을 세상에 던져버릴 수는 없으니까요. 아시다시피, 학습을 마치고, 사후 학습(post-training)을 마치고, 아마도 레드팀(red teaming) 단계와 안전성(safety) 등을 거친 후에야 비로소 패키징하여 "좋습니다, 이제 시작해도 됩니다"라고 말할 수 있습니다. 하지만 만약 연속 학습이 이루어진다면, 이 중간 상태가 실제로 안전한지 어떻게 알 수 있겠습니까? 그 부분에 대해서도 더 많은 연구가 필요할 것 같습니다.
네, 제 생각에는 우선 수백 번 또는 수천 번 정도 수행하는 일련의 이산적인(discrete) 단계들이 점차 합(summation)보다는 적분(integral)에 더 가까운 모습으로 변해갈 것이라고 봅니다.
음, 그래서 그런 방식으로 교차(interleaving)시키는 것이 타당할 것이라고 생각합니다. 하지만 당신의 말이 맞습니다.

사용자의 요청을 처리하고 있는 라이브 모델 (live model)을 위해 수행해야 할 여러 가지 작업들이 있다고 가정해 봅시다. 모델이 안전한지 확인해야 합니다. 음, 그래서 아마도 지속적 학습 (continual learning)이 일어나야 할 것이고, 당신이 말한 것처럼 안전 프로토콜 (safety protocols)과 레드팀 (red teaming)의 적용도 필요할 것입니다. 그러고 나서 그 모델의 새로운 버전을 출시하겠지만, 그 모델은 여전히 백그라운드에서 계속해서 학습을 진행합니다. 그리고 가장 최신 버전이 사용자에게 제공되기 전에, 최종적인 안전 테스트와 레드팀 (red teaming) 과정을 다시 수행하게 됩니다.

Jensen은 지난 10년 동안 연산 능력 (compute capabilities)이 100만 배 발전했다고 말하곤 합니다. 그렇다면 만약 향후 10년 동안, 또다시 100만 배의 발전이 이루어진다고 가정했을 때, 우리가 지금은 할 수 없지만 미래에는 할 수 있게 될 일은 무엇일까요?

네, 제 말은, 그것이...

AI 연산 능력이 1,000,000배 도약한 후에는 어떤 일이 벌어질까요? | Jeff Dean

요약

핵심 포인트

댓글