Anthropic의 로봇 개 테스트, Claude가 물리적 에이전트(Physical Agents)로 예상보다 빠르게 진입하고 있음을 시사

요약

Anthropic의 Project Fetch 실험 결과, Claude Opus 4.7이 로보틱스 작업에서 인간 팀보다 약 20배 빠른 속도를 기록하며 물리적 에이전트로의 진입을 시사했습니다. 모델이 도구를 체이닝하고 스스로 작성하는 패턴이 물리적 시스템에서도 나타나고 있습니다.

핵심 포인트

Claude Opus 4.7이 인간의 도움 없이 로보틱스 작업을 수행하며 압도적인 속도 증명
코딩 에이전트와 유사한 도구 사용 및 체이닝 패턴이 물리적 환경에서도 관찰됨
물리적 에이전트 도입 시 액추에이터 권한 관리 및 엄격한 보안 필요
하드웨어 제어를 위한 시뮬레이션 및 드라이 런 모드가 필수 요구 사항으로 부상

Anthropic의 로봇 개 테스트, Claude가 물리적 에이전트(Physical Agents)로 예상보다 빠르게 진입하고 있음을 시사

Anthropic이 새로운 Project Fetch 업데이트를 발표했습니다. 흥미로운 점은 로봇 개 자체가 아니라 그 도약의 속도입니다. Anthropic은 Claude Opus 4.7이 인간의 도움 없이 작동하며, 1년도 채 되지 않은 첫 번째 Project Fetch 실험 당시 가장 빨랐던 인간 팀보다 약 20배 더 빠르게 로보틱스(Robotics) 작업을 완료했다고 밝혔습니다.

이것은 바로 빌더(Builders)들이 주목해야 할 역량의 변화입니다. 모든 사람이 내일부터 당장 LLM(대규모 언어 모델)을 4족 보행 로봇에 테이프로 붙여야 한다는 뜻이 아니라, 코딩 에이전트(Coding Agents)에서 보았던 것과 동일한 패턴 — 모델이 기존 도구 사용법을 배우고, 이를 체이닝(Chaining)하며, 더 나은 도구를 직접 작성하는 패턴 — 이 물리적 시스템에서도 나타나기 시작했다는 점 때문입니다.

Anthropic이 실제로 테스트한 것

Project Fetch는 프런티어 레드팀(Frontier Red Team) 실험으로 시작되었습니다. 즉, Claude가 로보틱스 전문가가 아닌 사람들도 기성품 로봇 4족 보행 로봇을 사용하여 유용한 작업을 수행하도록 도울 수 있는지를 확인하는 것이었습니다.

첫 번째 라운드에서 Claude Opus 4.1은 인간 팀의 작업 속도를 높이는 데 도움을 주었지만, Anthropic은 모델이 설정(Setup) 및 제어(Control) 작업을 완전히 스스로 수행할 수는 없었다고 말합니다. 새로운 페이즈 2(Phase Two) 보고서에서 Anthropic은 최신 Claude 모델들이 제한된 테스트 환경에서 그 기준을 통과했다고 밝혔습니다.

주요 결과는 다음과 같습니다:

Claude Opus 4.7은 인간의 도움 없이 작동하며, 1년도 채 되지 않은 시점에 참가자들이 완료했던 모든 작업에서 가장 빨랐던 인간 팀보다 약 20배 더 빨랐습니다.

Anthropic은 여기서 주의 사항을 신중하게 언급했습니다. 이것이 LLM이 로보틱스 문제를 완전히 해결했다는 것을 의미하지는 않습니다. 모델은 여전히 정밀한 물리적 조작(Physical Manipulation)에는 어려움을 겪었으며,

현재 많은 AI 제품 개발 작업은 에이전트(Agents)가 브라우저, IDE, CRM, 티켓 큐(ticket queues), 셸 세션(shell sessions) 내부에서 작동한다고 가정합니다. 이것만으로도 이미 충분히 복잡합니다. 일단 모델이 로봇, 실험 장비, 드론, 카메라, 테스트 리그(test rigs), 제조 장비와 같은 범용 물리적 도구(commodity physical tools)를 안정적으로 조작할 수 있게 되면, 리스크와 제품 계산 방식(product calculus)이 변화합니다.

몇 가지 실질적인 시사점은 다음과 같습니다:

도구 권한(Tool permissions) 관리가 더욱 엄격해져야 합니다. 파일 권한이 잘못된 코딩 에이전트는 짜증을 유발할 뿐이지만, 액추에이터(actuator) 권한이 잘못된 물리적 에이전트는 위험할 수 있습니다.
시뮬레이션(Simulation) 및 드라이 런(dry-run) 모드는 '있으면 좋은 기능'이 아니라 '제품 요구 사항'이 됩니다. 에이전트가 하드웨어를 다루게 된다면, 팀은 단계별 실행(staged execution), 인간의 승인 지점(human approval points), 그리고 롤백(rollback)이 가능한 경우를 대비한 롤백 계획을 갖추어야 합니다.
인터페이스가 중요합니다. 도구가 깨끗한 API, 텔레메트리(telemetry), 제약 조건(constraints), 그리고 명확한 에러 메시지를 제공할 때 모델은 더 나은 성능을 보입니다. 자신의 장치를 '에이전트가 읽을 수 있는(agent-readable)' 형태로 만드는 하드웨어 팀이 우위를 점할 것입니다.
평가(Evaluation)는 채팅 기록(chat transcripts) 수준을 넘어서야 합니다. 지연 시간(latency), 부분적 실패 후의 복구(recovery after partial failure), 센서 혼동(sensor confusion), 안전하지 않은 명령(unsafe commands), 그리고 지루하고 복잡한 현실 세계의 무질서(real-world mess)에 대한 테스트가 필요합니다.

이는 또한 더 광범위한 에이전트 붐(agent boom)과 맞물려 있습니다. 코딩 에이전트를 단순한 장난감 수준에서 벗어나게 만드는 주 단위의 개선 사항들은, 모델이 도구 체인(toolchain)에 대해 추론할 수 있게 되면 실험실, 창고, 클리닉, 작업장으로 전이될 수 있습니다.

주의 사항 (The caveats)

이것은 Anthropic이 진행한 실험이며, 독립적인 로봇 공학 벤치마크(robotics benchmark)가 아닙니다. 제한된 작업 설정과 특정 로봇을 사용했습니다. 따라서 이 결과는 '일반적인 로봇 공학의 돌파구'라기보다는 '강력한 신호(strong signal)'에 가깝습니다.

또한 Anthropic은 Claude의 성능이 인간 참여(human in the loop)의 가치를 제거하는 것은 아니라고 언급합니다. 정밀한 제어, 판단, 그리고 안전을 위해서는 여전히 인간이 중요합니다. 여기서 유용한 통찰은 "로봇 문제가 해결되었다"가 아니라, "프런티어 모델(frontier models)이 문서, API, 센서, 피드백을 행동으로 전환하는 능력이 향상되고 있다"는 것입니다.

이것만으로도 진지하게 받아들일 가치가 충분합니다.

출처 (Sources)

Anthropic: Project Fetch — Phase two

AI 자동 생성 콘텐츠

원문 바로가기

Anthropic의 로봇 개 테스트, Claude가 물리적 에이전트(Physical Agents)로 예상보다 빠르게 진입하고 있음을 시사

요약

핵심 포인트

Anthropic의 로봇 개 테스트, Claude가 물리적 에이전트(Physical Agents)로 예상보다 빠르게 진입하고 있음을 시사

Anthropic이 실제로 테스트한 것

주의 사항 (The caveats)

출처 (Sources)

출처 (Sources)

댓글