체화된 지능(Embodied Intelligence) 벤치마크 구축을 위한 지능형 자동화: 파이프라인, 체화(Embodiments)
요약
체화된 지능(Embodied Intelligence)의 발전에 따른 벤치마크 구축의 병목 현상을 해결하기 위한 5단계 자동화 파이프라인을 제안합니다. 수동 큐레이션에서 에이전트 기반 폐쇄 루프 워크플로로의 전환을 분석하며, 자동화가 비용 절감을 넘어 검증과 거버넌스의 중요성을 높인다고 강조합니다.
핵심 포인트
- 체화된 지능 벤치마크를 위한 5단계 구축 파이프라인 제시
- 수동 방식에서 에이전트 기반 자동화 워크플로로의 전환 분석
- 자동화가 검증, 감사 가능성, 거버넌스 등 품질 관리에 미치는 영향 설명
- 신뢰할 수 있는 평가를 위한 진단 및 유지보수 가능한 시스템의 필요성
체화된 지능(Embodied intelligence)은 이제 내비게이션, 가사 보조, 조작(manipulation), 자율 주행, 항공 에이전트(aerial agents), 그리고 멀티모달 거대 모델(multimodal large-model) 제어에 이르기까지 그 범위를 넓히고 있습니다. 이러한 확장은 벤치마크 구축을 신뢰할 수 있는 평가를 위한 핵심적인 병목 현상으로 만들었습니다. 정적인 데이터셋과 달리, 체화된 벤치마크는 작업 사양(task specifications), 환경, 로봇 데이터, 시연(demonstrations), 주석(annotations), 메트릭(metrics), 평가 스크립트, 그리고 배포 정책을 하나의 평가 시스템으로 결합합니다. 본 조사(survey)는 요구사항 및 작업 구축, 데이터 획득, 데이터 정제 및 주석 처리, 벤치마크 스위트(benchmark suite) 생성 및 메트릭 정의, 그리고 진단 피드백을 포함한 평가 실행이라는 5단계 구축 파이프라인을 통해 문헌을 검토합니다. 각 단계에 대해, 본 조사는 수동 큐레이션(manual curation)에서 전통적인 자동화, 파운데이션 모델(foundation-model) 지원, 그리고 에이전트 기반의 폐쇄 루프(agentic closed-loop) 워크플로로의 전환을 분석합니다. 또한 인적 노동, 데이터 및 자산 획득, 컴퓨팅 및 시뮬레이션, 검증 및 디버깅, 거버넌스 및 유지보수, 그리고 재작업 리스크에 따른 정성적 구축 비용을 비교합니다. 주요 결론은 자동화가 단순히 벤치마크 비용을 줄이는 것이 아니라는 점입니다. 대신, 자동화는 종종 비용의 중심을 검증, 감사 가능성(auditability), 버전 관리, 그리고 장기적인 거버넌스로 이동시킵니다. 따라서 체화된 평가의 발전은 더 큰 벤치마크 스위트뿐만 아니라, 진단 가능하고, 감사 가능하며, 책임감 있게 갱신 가능한 구축 파이프라인에 달려 있을 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기