arXiv논문2026. 06. 03. 11:05

독아론적 초지능은 협력적이지 않을 가능성이 높다

요약

현재의 AI 연구가 강력한 에이전트 개발에만 집중하는 '독아론적' 방식에서 벗어나, 상호 의존성을 고려한 '비독아론적' 패러다임으로 전환해야 한다고 주장합니다. AI 배포 시 발생하는 환경 변화와 불일치를 해결하기 위해 협력적 설계와 제도적 접근이 필수적임을 강조합니다.

핵심 포인트

독아론적 AI 설계는 협력적이지 않은 초지능을 초래할 위험이 있음
훈련과 배포 환경 간의 간극인 '내생적 비정상성' 문제 해결 필요
협력을 단순 작업이 아닌 상호 의존적 설계 원칙으로 다뤄야 함
적응형 상대방과 제도를 포함하는 동적 테스트베드 구축 촉구

AI의 핵심 과제는 역량(capability)에서 공존(coexistence)으로 전환되는 것입니다. AI 연구의 지배적인 패러다임은 세계를 외생적(exogenous)이고 정적인 피드백 소스로 취급하는 강력한 에이전트(agent)를 개발하는 데 집중하고 있습니다. 우리는 이러한 독아론적(solipsistic) AI 설계 방식에서 탄생한, 극도로 유능한 작업 해결사(task solver)인 초지능(superintelligence)은 협력적이지 않을 가능성이 높다고 주장합니다. AI 시스템을 배포하는 것은 내생적 비정상성(endogenous non-stationarity)을 유발하며, 이는 과거의 분포가 배포 컨텍스트와 달라지는 훈련-테스트-배포 간극(train-test-deploy gap)을 초래합니다. 우리는 이를 일방적 최적화(unilateral optimization)의 자기 파괴적 특성(self-undermining property)이라고 부릅니다. 이 간극을 메우기 위해서는 협력에 참여하는 AI가 필요합니다. 즉, 여러 행위자가 상호 의존성을 탐색하는 과정인 평형 선택(equilibrium-selection) 프로세스가 필요합니다. 우리는 협력을 해결해야 할 하나의 작업으로 접근하는 대신, 이러한 상호 의존성을 핵심 설계 원칙으로 다루는 비독아론적(non-solipsistic) 연구 패러다임을 촉구합니다. 이는 적응형 상대방(adaptive counterparties)을 포함하는 동적 평가 테스트베드(testbeds)를 구축하고, 제도를 설계 기본 단위(design primitives)로 취급하며, 우리가 구축하는 시스템의 구조적 특징으로서 인간의 주체성(human agency)을 보존하는 것을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

독아론적 초지능은 협력적이지 않을 가능성이 높다

요약

핵심 포인트

댓글