Import AI 463: 자기 개선형 로봇; 1만 개의 중국 GPU 클러스터; 그리고 인류 시대를 위한 애가(Elegiac Essay)

NVIDIA가 현실 세계 로봇 공학을 위한 투박한 자기 개선 루프(self-improvement loop)를 구축했습니다:
**...만약 AI 에이전트(AI agents)의 가장 뛰어난 아이디어들을 가져와 현실 세계에 적용할 수 있다면 어떨까요?...
_NVIDIA의 연구진은 물리적 로봇이 AI 에이전트가 거치는 것과 동일한 종류의 자율적 실험 및 실행 루프(autonomous experimentation and execution loop)를 수행할 수 있도록 하는 소프트웨어인 ENPIRE를 개발했습니다. 이 연구는 초지능(superintelligence)이 자신을 물리적 세계에 구현하기 위해 로봇을 사용하려고 시도할 때 어떤 모습일지 맛보게 해줍니다. 비록 로봇 공학의 모든 사례가 그러하듯, 현재의 예시들은 기껏해야 암시적인 수준에 불과하지만 말입니다.

ENPIRE란 무엇인가: 이 소프트웨어는 "코딩 에이전트(coding agents)를 위한 하네스 프레임워크(harness framework)로, 다음과 같은 네 가지 핵심 모듈을 통해 물리적 피드백 루틴을 구현합니다: 자동 리셋 및 검증을 위한 환경(Environment, EN) 모듈, 정책 정교화(policy refinement)를 시작하는 정책 개선(Policy Improvement, PI) 모듈, 단일 또는 다수의 물리적 로봇을 병렬로 운영하여 정책을 평가하는 롤아웃(Rollout, R) 모듈, 그리고 코딩 에이전트가 로그를 분석하고, 문헌을 참고하며, 훈련 인프라와 알고리즘 코드를 개선하여 실패 모드(failure modes)를 해결하는 진화(Evolution, E) 모듈입니다."ENPIRE는 코딩 에이전트가 작동하는 방식과 동일하게 작동합니다. 즉, 스캐폴드(scaffold)가 작업을 완료하도록 요청받은 일부 물리적 로봇을 감독합니다. 로봇들은 작업을 완료하려고 시도하며, 무언가를 완수하기 위해 다양한 전략을 시도하고, 실패하며, 학습합니다. 시스템은 로봇의 성공 여부를 평가할 뿐만 아니라, 로봇이 실패할 경우 스스로를 리셋합니다. "이 폐쇄 루프 시스템(closed-loop system)은 현실 세계의 로봇 학습을 에이전트가 관리할 수 있는 제어 가능한 최적화 절차(optimization procedure)로 변환하며, 이를 통해 훈련 레시피(training recipes)와 에이전트 변체(agent variants) 전반에 걸쳐 공정한 절제 연구(ablations)를 허용하면서 인간의 노력을 최소화합니다."
이것이 작동하게 만드는 두 가지 핵심 요소는 "인간의 판단 없이 각 시도의 결과"를 점수화하는 데 도움을 주는 자동 평가 시스템과, "다음 시도를 위해 장면을 새로운 초기 상태로 되돌리는" 자동 리셋 시스템입니다.

(이 두 가지 모두 역사적으로 많은 인간의 노력을 필요로 했던 작업들이며, 더 복잡한 작업들 또한 평가와 리셋을 위해 인간의 노력을 필요로 할 가능성이 높습니다. 따라서 어떤 의미에서는 이와 같은 시스템이 해결할 수 있는 작업의 복잡성은 시스템을 자동으로 평가하고 리셋할 수 있는 우리의 능력에 의해 정의되기도 합니다.)

하드웨어 상세 정보 (Hardware details): “각 스테이션은 고정된 양손(bimanual) 구성의 I2RT 제품인 두 개의 YAM (Yet Another Manipulator) 암, 카메라 세트, 그리고 FastAPI 서버, 정책 추론(policy inference), 스테이션의 에이전트(agent)를 실행하는 단일 워크스테이션으로 구성됩니다.” 각 워크스테이션은 NVIDIA RTX 5090을 실행하고 있습니다.

(일부 간단한 작업에서) 잘 작동함 (It works well (on some simple tasks)): 저자들은 “Frontier 코딩 에이전트들은 PushT, 핀을 핀 박스에 정리하기, 커터를 사용하여 케이블 타이(zip tie) 자르기와 같이 현실 세계의 도전적이고 정교한 조작(dexterous manipulation) 작업에서 99%의 성공률을 달성하기 위한 정책(policy)을 자율적으로 개발할 수 있다”라고 기술했습니다. 그들이 추가로 테스트한 작업은 로봇이 메인보드에 GPU를 얼마나 잘 삽입할 수 있는지 확인하는 것입니다.

일부 AI 시스템은 다른 시스템보다 뛰어나지만, 많은 AI 시스템은 항상 더 적은 수의 시스템보다 뛰어납니다: Codex 내의 GPT-5.5와 Claude Code 내의 Opus 4.7은 최상의 성능을 위해 서로 절충(trade off) 관계에 있는 반면, Kimi-2.6은 뒤처집니다. 또한 에이전트의 경우 규모의 경제(returns to scale)가 뚜렷하게 나타나는데, 더 많은 수의 에이전트(예: 8개)가 다른 경우보다 더 빨리 더 높은 점수의 솔루션에 도달하며, 때로는 멀티 에이전트(multi-agent) 설정이 단일 에이전트 설정보다 더 높은 절대 점수를 산출하기도 합니다. 이는 아마도 잠재적인 솔루션 공간(solution space)을 더 많이 탐색하기 때문일 것입니다.

플릿 계측(fleet instrumentation)에는 여전히 과제가 남아 있습니다: “코딩 에이전트(Coding agents)가 로그를 읽거나, 코드를 작성하거나, 디버깅하거나, 언어 모델 백본(language-model backbone)을 기다리는 동안 로봇 자원을 완전히 활용하지 못합니다. 로봇의 수가 늘어남에 따라 MRU는 감소하는 반면 GPU 활성 활용률(active utilization)은 증가합니다”라고 그들은 기술합니다. 즉, 여러 로봇 에이전트를 추가할 때 작업이 자연스럽게 병렬화되지 않기 때문에 발생하는 인프라 측면의 과제들이 존재합니다. 더 읽어보기: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (NVIDIA research website).
더 읽어보기: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World (arXiv).

인간은 기술이 어떻게 구축되고 사용될지 예측하는 데 정말, 정말, 정말 서툽니다:
**_… 오늘날 AI에 대한 뜨거운 논쟁(hot takes)들이 틀릴 가능성이 높다는 점을 짧게 상기시켜 드립니다…
_기술의 미래를 예측하는 것은 극도로 어려우며, 이를 효과적으로 수행해 온 우리의 실적은 매우 저조합니다. 유타 대학교 S.J. Quinney 법과대학의 연구 부학장인 매튜 톡슨(Matthew Tokson)은 짧은 SSRN 논문에서 이 점을 지적합니다. “회의론자들은 종종 새로운 혁신의 가능성과 그것이 인류에 미칠 잠재적 파급 효과를 과소평가해 왔습니다. 반면 다른 이들은 새로운 기술의 사회적 영향이나 위험한 신무기 개발 경쟁의 전략적 이점에 대해 지나치게 낙관적이었습니다.”

주의해야 할 사례들: 세계의 많은 전문가들(예: Albert Einstein, Niels Bohr, Robert Oppenheimer)은 핵분열(nuclear fission)이 실제로 달성되기 직전 몇 년 동안, 그것이 달성될 수 있을지에 대해 회의적이었습니다. 노벨 경제학상 수상자인 Paul Krugman은 한때 인터넷의 영향력이 팩스(fax machine)보다 크지 않을 것이라고 말한 적이 있습니다. 기술자들은 인터넷이 궁극적으로 독재 체제를 강화하기보다는 민주주의를 촉진하는 기술이 될 것이라고 생각했습니다. 그리고 수십 년간 쌓여온 증거에도 불구하고, 많은 인간 과학자들은 인간에 의한 기후 변화를 부정하거나 그 영향을 현저히 과소평가했습니다.

이것이 중요한 이유 – 기본 교훈: 여기서 얻을 수 있는 주요 교훈은 a) AI가 경제에 거대한 변화를 가져올 수 있다는 것에 회의적이거나, b) AI의 영향이 보편적으로 좋을 것이라고 생각하는 사람들은 틀릴 가능성이 높다는 것입니다. 그는 "역사는 AI의 미래 영향에 대한 안일함을 지지하지 않는다"라고 썼습니다. "역사를 통틀어, 낙관주의자들은 새로운 기술의 사회적 파급 효과(social ramifications)나 새로운 무기 개발의 전략적 이점에 대해 종종 틀렸습니다. 회의론자들은 새로운 혁신의 가능성과 그것이 인류에 미칠 영향을 종종 과소평가해 왔습니다."더 읽어보기: Artificial Intelligence and the Lessons of History (SSRN).

Tencent, 10,000-GPU 학습 실행에 사용하는 소프트웨어 상세 내용 공개:
**_...ARGUS는 더 넓은 정교함의 기술적 특징(technosignature)입니다...
_Tencent는 대규모 칩 세트의 원격 측정(telemetry)을 생성하고 오류를 디버깅(debug)하는 데 사용하는 소프트웨어인 ARGUS에 대한 세부 정보를 공개했습니다.

개요 (What it is): ARGUS는 “대규모 학습 워크로드(workloads)를 위한 저부하(low-overhead), 세밀한(fine-grained), 상시 가동(always-on) 트레이싱(tracing) 및 실시간 분석 시스템”입니다. 이 소프트웨어는 Tencent가 AI 시스템을 학습시키는 동안 발생하는 문제를 디버깅(debug)하고 데이터를 수집하는 데 도움을 주도록 설계되었습니다. Tencent는 ARGUS가 “스케줄링 및 데이터 준비를 위한 Python 레이어, 단계별 오케스트레이션(orchestration)을 위한 프레임워크 레이어, 그리고 커널 실행을 위한 GPU 런타임(runtime) 레이어”의 세 가지 소프트웨어 계층으로 구성되어 있다고 밝혔습니다.

Tencent의 활용 사례 (What Tencent used it for): “우리는 10,000개 이상의 GPU로 구성된 프로덕션 클러스터(production cluster)에 ARGUS를 6개월 이상 배포하였으며, 컴퓨팅 스트래글러(compute stragglers), 통신 링크 저하(communication link degradation), 파이프라인 버블 증폭(pipeline bubble amplification), JIT 컴파일 차단(JIT compilation blocking), 그리고 통신 증상에 의해 가려진 컴퓨팅 스트래글러(compute stragglers)를 진단하는 다섯 가지 실제 사례 연구를 통해 실질적인 효과를 입증했습니다”라고 회사는 설명합니다. Tencent가 언급한 학습 실행 사례 중에는 4,096-GPU 비디오 언어 모델 학습 작업(아마도 “HunyuanVideo” 모델), 512-GPU 오디오 모델 학습 작업, 그리고 12,960-GPU MoE(Mixture-of-Experts) 학습 작업(아마도 Hunyuan LLM) 등이 포함됩니다.

중요성 – 광범위한 고도화의 기술적 징후 (Why this matters – technical symptoms of broader sophistication): ARGUS와 같은 도구는 자체 소프트웨어를 직접 작성하는 것이 합리적인 복잡하고 대규모인 인프라의 특징입니다. ARGUS 자체에 특별히 주목할 만한 점이 있는 것은 아닙니다. 자존심 있는 프런티어(frontier) AI 개발자라면 어디에서나 유사한 소프트웨어를 발견할 수 있을 것이기 때문입니다. 하지만 이는 Tencent의 학습 환경이 얼마나 성숙했는지를 보여준다는 점에서 더 흥미롭습니다. “ARGUS는 10,000개 이상의 GPU 프로덕션 클러스터에 6개월 이상 배포되어 프로덕션 학습과 함께 안정적으로 실행되었으며, 신속한 fail-slow 탐지 및 성능 최적화에 핵심적인 역할을 수행하고 있습니다.”

더 읽어보기: ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters (arXiv).

**권력 박탈(disempowerment)은 피할 수 없는 운명인가?
**…만약 우리가 초지능(superintelligent) 기계를 구축하는 데 성공한다면, 인류에게는 결국 얼마만큼의 선택권이 남게 될 것인가?…

현대 SF의 매우 뛰어난 작가이자 당신이 꼭 읽어봐야 할 작품을 쓴 Fernando Borretti는 "영구적 하층민으로부터 누구도 탈출할 수 없다(No-One Escapes the Permanent Underclass)"라는 제목으로 AI를 향한 모든 시도에 대한 애처로운 비판을 작성했습니다. 이 글은 인류가 스스로의 운명을 선택했던 시대에 대한 일종의 진혼곡(requiem)이며, 인류보다 똑똑하고 인류의 권력을 박탈할 수 있는 기계의 가능성에 정면으로 맞서고 있습니다.

결국 우리가 권력을 박탈당하게 될 원인으로서의 전쟁 논리: "살과 피로 이루어진 모든 존재는 권력을 박탈당하고 기계로 대체될 것입니다."라고 그들은 씁니다. "피라미드를 상상해 보십시오. 바닥에는 모든 경제 활동을 수행하는 AI와 로봇이 있습니다. 꼭대기에는 폭력에 대한 독점권을 가진 국가가 있습니다. 국가는 집행권을 가지며, 따라서 재산권의 정의를 변경할 수 있습니다. 그 중간에는 전체 경제를 형성하고 대사(catabolize)하는 기업들의 지분을 가진, 아주 얇은 계층의 사람들이 존재합니다. 바로 영구적 상류층(permanent overclass)입니다."

"국가의 존재가 위협받는 실존적 갈등 상황에서, 국가는 역사상 권력 없는 부유층에게 행해왔던 방식 그대로 그들을 체포하고 자산을 몰수할 것입니다."라고 그들은 덧붙입니다. "갈등 상황에서는 인간이 루프(loop)에서 최대한 벗어나고, 의사결정의 점점 더 많은 부분이 AI로 넘어가는 국가가 유리한 고지를 점하게 됩니다. 이는 라디오와 통신 위성에 접근할 수 있는 국가가 자전거를 타는 인간 전령에 의존하는 국가보다 전쟁에서 우위를 점하는 것과 같은 이유입니다."

우리가 통제력을 잃는 방식: “결국 AI를 명목상 통제하는 인간은 의례적이고 퇴화한 기관(vestigial organ)이 될 것입니다. AI는 우리에게 상황 보고서와 선택지 목록을 제시하며, 그들은 우리 입에서 나올 모든 단어를 이미 알고 있습니다.”라고 그들은 기술합니다. “이점은 인간의 통제를 최소화하는 국가에 축적됩니다. 도둑들 사이에는 명예가 없듯이, 유추하자면 리바이어던(Leviathan)과 그것을 만든 자연인 사이에는 연대감이 없습니다.”
“설령 정렬 (Alignment)이 완벽하게 작동한다 하더라도 (이는 매우 큰 가정이지만), 이것이 인간의 자율성 문제를 해결하지는 못합니다. 우리를 감시하고 우리의 수발을 드는 기계들은 전지전능한 주인이며, 언제든 우리를 멸절시킬 수 있습니다. 우리는 미래에 대한 통제권을 폐지했기 때문에 그들에게 저항할 수 없습니다.”

이것이 중요한 이유 – 이것은 불가피한가? AI 기술의 궁극적인 끌림 상태 (attractor state)가 인류 발전의 권한 박탈과 기능적 종말인가? 이것이 바로 이 포스트가 다루고자 하는 논점입니다. 더 읽어보기: No-One Escapes the Permanent Underclass (Fernando Borretti, 블로그).

Local Ordinance Corpus를 통해 AI 시스템에 법률을 가시화하기:
**...미국 전역의 지방 법률에 대한 통합된 관점...
_UC Berkeley의 연구진은 미국의 지방 자치 법전(municipal and county ordinance codes)을 위한 “포괄적인 코퍼스(corpus)이자 카운티 단위로 조화된 액세스 계층인 미국 지방 조례 코퍼스 (Local Ordinance Corpus for the United States, LOCUS)”를 구축했습니다.

Import AI 463: 자기 개선형 로봇; 1만 개의 중국 GPU 클러스터; 그리고 인류 시대를 위한 애가(Elegiac Essay)

요약

핵심 포인트

댓글