Figure AI의 81시간 라이브 스트림: 연속적인 로봇 영상이 실제로 증명하는 것

데모는 8시간 동안 지속될 예정이었습니다. 하지만 Figure AI는 이를 81시간 만에 종료했습니다. 그 사이, F.03 플랫폼에서 회사의 Helix-02 전신 제어기 (whole-body controller)를 구동하는 Jim이라는 이름의 휴머노이드 로봇은 기록된 인간의 개입 없이 창고 컨베이어 벨트에 101,391개의 패키지를 분류했습니다. 천만 명의 사람들이 연속 라이브 스트림 (continuous livestream)을 시청했습니다. 이에 대한 반응은 빠르게 갈렸습니다. 어떤 이들은 이를 휴머노이드 로보틱스 (humanoid robotics)가 데모를 넘어 배포 (deployment)의 단계로 접어든 순간이라고 불렀습니다. 다른 이들은 Jim의 머리 기울임을 보고 "원격 조종 (teleoperation)"이라는 단어를 언급했습니다.

두 가지 해석 모두 두 개의 별개 주장을 하나로 합쳐버린 것입니다. "연속적으로 작동했다"는 것은 가동 시간 (uptime)에 대한 주장입니다. "일반적인 작업을 수행한다"는 것은 일반화 (generalization)에 대한 주장입니다. 영상은 첫 번째 주장을 명확하게 증명합니다. 하지만 두 번째 주장에 대해서는 거의 아무것도 말해주지 않습니다. 이 두 가지를 분리해내는 것이 다음에 휴머노이드 기업이 라이브 스트림을 게시할 때 유념할 만한 작은 평가 프레임워크 (evaluation framework)입니다.

81시간의 가동 시간이 진정으로 입증하는 좋은 증거

가동 시간 (uptime)에 대한 주장부터 시작해 보겠습니다. 왜냐하면 영상이 명확하게 뒷받침하는 것은 바로 이 부분이기 때문입니다. 연속적인 작동은 장시간 동안 속이기가 어렵습니다. 짜여진 하이라이트 영상은 복구 (recoveries), 재교정 (recalibrations), 그리고 모델의 신뢰도 (confidence)가 떨어져 팔이 멈추는 순간들을 숨깁니다. 끊기지 않는 피드는 이러한 순간들을 드러냅니다. 시청자들은 Jim이 패키지를 떨어뜨리고, 판독을 실패하고, 사이클을 재시작하며, 복구하는 과정을 지켜보았습니다. 그리고 그 복구 영상 자체가 복구 루프 (recovery loop)가 인간 없이 작동한다는 증거입니다. 기업이 기꺼이 보여주려는 표면이 이것이 될 때, 세 가지 요소가 핵심적인 지지 기반이 됩니다.

첫 번째는 단일 작업 신뢰성 (single-task reliability)입니다. 인간과 거의 대등한 수준 (Figure는 패키지당 약 3초라고 언급했으며, CEO Brett Adcock는 Jim의 속도를 '인간과 거의 대등한 수준'이라고 표현함)의 분류 작업이 81시간 동안 지속되었다는 것은, 인지 스택 (perception stack), 파지 정책 (grasp policy), 그리고 모터 컨트롤러 (motor controllers)가 90분짜리 데모로는 조사할 수 없는 열적 및 마모 범위 (thermal and wear envelope) 전반에 걸쳐 정확도 곡선을 유지하고 있음을 의미합니다. 101,391개의 패키지 수치는 벤치마크 숫자와는 다른 방식으로 그 범위를 감사 (auditable) 가능하게 만듭니다. 시청한 사람이라면 누구나 특정 구간을 샘플링하여 속도를 확인할 수 있습니다.

두 번째는 원격 조종 흔적 (teleoperation signature)의 부재입니다. 이번 스트림에 대해 가장 많이 반복된 비판은, 원격 조종사가 다음 패키지를 보기 위해 고개를 돌릴 때처럼 Jim이 고개를 기울인다는 점이었습니다. 이에 대한 Adcock의 답변은 구체적이었습니다. 해당 머리 움직임은 Helix-02가 팔의 경로를 자동으로 확보하는 과정이며, 로봇이 동일한 동작을 수행할 때마다 동일한 상황에서 같은 제스처가 나타난다는 것입니다. 마지막 구절이 핵심입니다. 원격 조종은 인간이 가변적이기 때문에 가변적인 흔적을 만들어내지만, 결정론적 학습 행동 (deterministic learned behavior)은 일관된 흔적을 만들어냅니다. 즉, 사람들이 원격 조종의 증거라며 스크린샷을 찍은 머리 기울임 영상은 사실 원격 조종이 아니라는 증거입니다. 주의 깊은 관찰자라면 여전히 '무인 작동 (no-touch)' 주장에 대한 제3자 감사를 원하겠지만, 영상 속의 흔적은 원격 조종을 가리키는 것이 아니라 오히려 그 반대임을 나타냅니다.

세 번째는 운영 규율 (operational discipline)입니다. Figure는 계획된 8시간의 창을 넘어 73시간을 초과하여 스트림을 진행했습니다. 피로, 소프트웨어 업데이트, 그리고 드물게 발생하는 가시적인 실패 상황 속에서도 카메라를 계속 켜둘 만큼 자신감이 있는 기업은, 단 하나의 나쁜 프레임이 헤드라인을 깎아내리기보다 평균적인 프레임이 헤드라인을 뒷받침한다는 데 도박을 걸고 있는 것입니다. 이 도박은 평균적인 프레임이 실제로 좋을 때만 성립합니다.

이것이 일반화 (generalization)에 대해 여전히 알려주지 않는 것

81시간의 실행은 하나의 제한된 작업(constrained task)에 대한 하나의 동작 스택(motion stack)일 뿐입니다. 즉, 움직이는 벨트에서 패키지를 집어 바코드가 아래로 향하도록 방향을 맞춘 뒤, 출고 컨베이어에 놓는 작업입니다. 이것은 마라톤 방식의 증명입니다. 이는 러너가 42km 동안 하나의 보폭을 유지할 수 있음을 보여주지만, 그 러너가 전력 질주하거나, 점프하거나, 던지거나, 수영할 수 있는지에 대해서는 전혀 알려주지 않습니다. 단일 작업의 가동 시간(uptime) 그 자체만으로는 작업 간 전이(cross-task transfer)를 예측할 수 없습니다.

그 구분 너머에는 세 가지 미해결 질문이 놓여 있습니다. 동일한 Helix-02 정책(policy)이 다른 형태의 패키지—부드러운 폴리 메일러(poly mailers), 불규칙한 상자, 컨베이어의 방향 가정(orientation assumptions)을 무력화하는 물품들—에서도 작동할까요? 다른 창고 환경—다른 컨베이어 속도, 다른 조명, 다른 음향 소음—에서도 살아남을 수 있을까요? 그리고 '노 터치(no-touch)' 주장은 정확히 무엇을 의미할까요? Figure의 프레임워크에서 "인간의 개입 없음(No human intervention)"은 실질적인 역할을 하고 있지만, 배포 등급의 감사(deployment-grade audit)라면 타임스탬프가 포함된 개입 로그, 무엇을 개입으로 간주할지에 대한 공개적인 정의, 그리고 실행 시간 계산에서 제외된 영상이 몇 분인지에 대한 샘플링 윈도우 분석(sampling-window analysis)을 요구할 것입니다.

라이브 스트림의 마케팅 프레임워크인 "이것은 더 이상 연출된 데모가 아니다"라는 문구는 이 세 가지 질문보다 앞서 나가고 있습니다. 연출 여부(Staged-vs-not)는 잘못된 축입니다. 올바른 축은 단일 작업 신뢰성(single-task reliability) 대 작업 간 일반화(cross-task generalization)이며, 이 축 위에서 라이브 스트림은 첫 번째에 대해서는 자신감 있는 진술을 하고 있지만, 두 번째에 대해서는 조용한 물음표를 던지고 있습니다.

각 미해결 질문을 종결시키기 위해 필요한 것

두 가지 구체적인 후속 데모가 대부분의 역할을 수행할 것이며, 두 데모 모두 이미 방송된 시간보다 길 필요는 없습니다.

멀티태스크(multi-task) 라이브 스트림—Jim이 동일한 컨트롤러를 사용하여 스트림 중간에 패키지 분류에서 해당 시간에 사전 학습(pre-trained)되지 않은 두 번째 작업(키팅(kitting), 팔레타이징(palletizing), 다른 컨베이어 기하 구조)으로 전환하는 방식—은 Helix-02가 가동 시간이 좋은 분류 정책(sorting policy)인지, 아니면 우연히 오늘 분류 작업을 수행하고 있는 일반 조작 정책(general manipulation policy)인지를 해결해 줄 것입니다. 즉, 지속 시간 스트림(duration stream)이 아닌 다양성 스트림(diversity stream)이 필요합니다.

개입 로그(intervention logs)에 대한 제3자 감사(third-party audit)가 이루어진다면, 머리 기울기(head tilts)에 대해 논쟁할 필요 없이 '비접촉(no-touch)' 여부 문제를 해결할 수 있을 것입니다. 분당 개입 횟수, 개입의 조작적 정의(operational definition), 그리고 실행 시간(run-time) 수치에서 제외된 구간들을 공개하십시오. 컨베이어 바닥(conveyor-floor) 경험이 있는 외부 관찰자가 로그를 검토하게 하십시오.

81시간의 실행은 특정한 주장을 명확하게 입증했습니다. 만약 Figure가 원한다면, 이어지는 두 번의 데모는 이번에 입증하지 못했던 더 광범위한 주장을 입증하게 될 것입니다.

Figure AI의 81시간 라이브 스트림: 연속적인 로봇 영상이 실제로 증명하는 것

요약

핵심 포인트

81시간의 가동 시간이 진정으로 입증하는 좋은 증거

이것이 일반화 (generalization)에 대해 여전히 알려주지 않는 것

각 미해결 질문을 종결시키기 위해 필요한 것

댓글