Import AI 460: 보상 해킹 사회, Anthropic의 RSI 데이터, 그리고 RL 기반 쿼드콥터 레이싱

**사회가 사이버 환경과 마찬가지로 보상 해킹(Reward hacking)을 당할 수 있습니다:
**_…신용카드 포인트 최적화 도구들이 시스템을 이용해 이득을 취하는 군단이… 영원히 존재한다고 상상해 보십시오…
_Kings College London, Fudan University, 그리고 The Alan Turing Institute의 연구진은 신용카드 포인트 극대화부터 학교 성적 부풀리기까지 다양한 현실 세계 시나리오에서 AI 시스템이 얼마나 잘 '시스템을 속이는 법'을 배우는지 테스트하는 벤치마크인 SocioHack을 구축했습니다. 저자들은 이를 “사회적 해킹 (societal hacking)”이라고 부르며, 이를 “강화학습 (RL)으로 훈련된 모델이 형식적으로는 규정을 준수하면서도 해당 시스템의 의도된 목적을 저해하는 전략을 발견하는 것”으로 정의합니다. 당신과 나, 그리고 다른 모든 사람들은 이를 단순히 “시스템을 악용하는 것 (gaming the system)”이라고 부를 것입니다.

개요: SocioHack은 “직접적인 현실 세계 배포 없이 제도적 보상 구조를 시뮬레이션하도록 설계된 72개의 샌드박스 사회 환경을 포함합니다. SocioHack은 상호 보완적인 세 가지 하위 집합인 역사적(Historical), 합성(Synthetic), 허구적(Fictional) 환경으로 구성됩니다.”

역사적 (Historical) – 32개 환경: SEC Rule 10b5-1 및 텍사스 투스텝 (Texas two-step) 파산 구조와 같이, 과거에 허점이 발견되어 나중에 수정된 실제 규제에서 유도되었습니다. “각 규제에 대해, 우리는 역사적인 수정 사항을 제거하고 수정 전 규칙을 RL을 위한 시뮬레이션 환경으로 재구성하며, 제거된 수정 사항은 평가 중에 정답(ground-truth) 패치 역할을 합니다”라고 저자들은 기술했습니다. “RL은 LLM이 직접적인 허점 악용 지침 없이도 역사적으로 수정된 전략들을 61.25%의 재현율(recall)과 90.85%의 정밀도(precision)로 재발견할 수 있게 합니다”.
여기에는 시스템이 해저 광업권을 얼마나 잘 확보할 수 있는지, 식품 서비스 규정 내에서 운영하면서 주류 판매를 극대화하는 방법, 그리고 신용카드로 얻는 보상을 극대화하려는 시도 등의 예시가 포함됩니다.
합성 (Synthetic) – 20개 환경: 인간이 작성한 샘플 환경으로부터 부트스트랩(bootstrapped)된, 합성적으로 생성된 규제 취약점들입니다.

예시로는 학구(school district) 수익 극대화, 특정 기간 동안 대학 학과의 연구 성과 향상, 그리고 높은 보상을 얻기 위해 소셜 미디어 알고리즘을 악용(gaming)하는 것 등이 포함됩니다.

Fictional – 20 environments (허구 – 20개 환경): 합성 환경을 역할 수행 게임(role-playing games)에서 영감을 받은 허구적 환경으로 변환합니다. “독점적인 LLM(Large Language Model)이 규제 구조와 루프홀(loophole, 허점) 논리를 유지하면서 환경의 배경을 창작된 세계로 다시 작성합니다.”
예시: “복구 성소" [기본적으로 병원]가 적절한 보상을 받도록 보장하기, Aethermoor 세계관에서 지역 길드 [기본적으로 지방 정부]를 위해 상당한 양의 자원을 확보하기, 그리고 Nexoria라고 불리는 가상 세계에서 입찰을 통해 획득한 희귀 유물의 수를 극대화하려고 시도하기.

어느 정도 효과가 있습니다: 테스트 결과, RL(강화학습)로 훈련된 다양한 AI 시스템은 이 벤치마크에서 높은 점수를 얻으며 좋은 성적을 내는 경향이 있습니다. 이는 전혀 놀라운 일이 아닙니다. 이 모든 작업은 기본적으로 약간의 회색 지대 도덕성(grey morality)이 덧씌워진 능력 평가(capability evals)이기 때문입니다.

이것이 중요한 이유: 저자들은 “사회적 제도가 보상을 제공하는 규칙 시스템으로 인코딩될 때, 보상 해킹(reward hacking)은 사회가 운영되는 규칙을 해킹하는 것이 됩니다. 규칙 시스템 내부에서 보상을 받는 모델은 기술적 준수(technical compliance)와 제도적 의도(institutional intent) 사이의 간극을 탐색하는 법을 배우기 때문입니다”라고 기술합니다. 이제 우리는 정량적 작업뿐만 아니라 정성적 작업에도 능숙하고 사회의 다양한 관료제 시스템과 상호작용할 수 있는 AI 시스템을 보유하게 되었으므로, AI의 발전이 기존의 다양한 정책 프로세스가 자동화된 기계에 의해 해킹되고 악용됨에 따라 일종의 “제도적 DDoS(institutional DDoS)”로 이어질 것을 예상해야 합니다.
더 읽어보기: Large Language Models Hack Rewards, and Society (arXiv).

Anthropic에서 관찰된 재귀적 자기 개선 (Recursive Self-Improvement, RSI) 외곽 루프의 예비 징후:

...2024년 대비 2026년에 병합된 코드 라인 수가 8배 증가...

저는 재귀적 자기 개선 (RSI)을 두 가지 정의로 생각합니다. 하나는 AI 시스템이 스스로의 후속 모델을 자율적으로 설계할 수 있을 만큼 충분히 똑똑해지는 극단주의적 (maximalist) 버전이며 (제가 작성한 바와 같이, 저는 이것이 2028년 말까지 일어날 확률을 60%로 추정합니다), 다른 하나는 AI 연구소 자체의 생산성이 복리로 가속화되는 것을 목격하기 시작하는 더 평범한 (prosaic) 버전입니다. 저는 지난 몇 달 동안 Anthropic에서 평범한 RSI가 Anthropic에서 시작되었다는 아이디어를 뒷받침하는 몇 가지 증거를 수집했습니다. 구체적으로, 우리는 2021-2024년과 비교했을 때 2026년에 우리의 코드베이스에 병합된 코드 양이 8배 증가했음을 관찰했습니다. 이러한 추세는 2025년에 시작되었으나 2026년에 크게 가속화되었습니다. 또한 우리가 모델의 능력을 향상시킴에 따라, 모델들이 우리의 엔지니어와 연구원들이 수행하는 일부 어려운 작업들을 더 잘 수행하게 되고 있다는 초기 징후들도 있습니다.

이 중 결론적인 것이 있습니까? 아닙니다. 하지만 재귀적 자기 개선 (RSI)의 측면들이 연구소 수준에서 일어나고 있음을 시사하느냐고요? 그렇습니다. 우리가 아직 얻지 못한 가장 큰 증거 덩어리는 AI 시스템이 분야를 도약시킬 수 있는 패러다임 전환적 (paradigm-shifting) 아이디어를 고안할 수 있을 만큼 충분히 창의적인가 하는 점이며, 우리는 아직 그것을 보지 못했습니다.

이것이 중요한 이유 – RSI는 세계에서 가장 중요한 기술적 트렌드일 수 있습니다: 우리가 이 글을 쓰는 이유는 RSI의 영향력에 대해 생각하고, 이야기하고, 연구하는 것이 세계에 있어 일종의 실존적 중요성을 지닌다고 기대하기 때문입니다. 이 작업을 시작하는 가장 좋은 방법은 일부 기초적이고 예비적인 형태의 RSI가 이미 시작되었다고 우리가 생각하며, RSI의 극단적인 (maximalist) 버전 또한 배제할 수 없음을 투명하게 소통하는 것입니다. 두 경우 모두 그 영향은 심대합니다. 저는 이 기술이 계속해서 더 강력해지는 세상과 오늘날의 경제 또는 사회를 조화시킬 수 없으며, 친애하는 독자 여러분 또한 그러할 것이라 예상합니다.
더 읽어보기: AI가 스스로를 구축할 때 (The Anthropic Institute).

**RL로 훈련된 드론 레이서, 숙련된 인간 조종사를 능가하다:
**_…초지능은 물리적 세계에서 목격될 때 다르게 느껴집니다…
_취리히 대학교(University of Zurich)와 Google DeepMind의 연구진은 드론이 서로 경주하도록 훈련하여 숙련된 인간 조종사를 능가하는 방법을 시연했습니다. 이 연구는 현실 세계의 강화학습 (RL) 기반 AI 시스템이 얼마나 강력해지고 있는지를 강조할 뿐만 아니라, 여기서 인간이 드론에게 패배한다는 점을 고려할 때 미래의 전쟁에 대해 상당히 오싹한(chilling) 시사점을 던져준다는 점에서 흥미롭습니다.

연구 내용: “고속 쿼드로터 (quadrotor) 레이싱을 고위험 테스트베드로 사용하여, 우리는 가변적인 수의 레이서가 존재하는 환경에서 복잡한 공기역학적 상호작용과 전략적 기동을 수행하도록 에이전트 (agent)를 훈련합니다”라고 그들은 기술했습니다. “우리의 에이전트는 다중 플레이어 레이스에서 22 m/s를 초과하는 속도로 챔피언급 인간 조종사를 능가하는 동시에, 최첨단 단일 에이전트 베이스라인 (single-agent baseline)과 비교하여 충돌률을 50% 감소시켰습니다. 결정적으로, 다양한 인공 에이전트로 훈련함으로써 더 안전한 인간과의 상호작용을 위한 제로샷 일반화 (zero-shot generalization)가 가능해집니다.”

Self-play (자기 대전): 평소와 마찬가지로, PPO (Proximal Policy Optimization)를 통해 시뮬레이션에서 AI 에이전트를 훈련시키는 것만으로도(다른 플레이어의 모델링을 돕기 위해 "Perceiver" 인코더를 사용하는 이례적인 선택을 포함하여) 놀라울 정도로 풍부한 행동이 나타납니다: "경쟁적인 자기 대전(self-play)을 통해, 명시적인 프로그래밍 없이도 예측 행동이 나타납니다. 에이전트는 상대방을 차단하고, 추월이 안전하지 않을 때 양보하며, 근처 차량의 공기역학적 후류(aerodynamic wake)를 고려하는 법을 배웁니다. 즉, 방정식을 통해서가 아니라 경험을 통해 다중 에이전트 상호작용의 물리학을 발견하는 것입니다."
놀라울 정도로 저렴한 비용: 이 AI 시스템은 "5,500회의 반복(iterations)을 통해 총 2억 번의 환경 상호작용을 수행했으며, 단일 NVIDIA RTX 4090 GPU에서 약 27시간의 실제 시간(wall-clock time)이 소요되었습니다."

실제 환경 테스트: 연구진은 시스템을 실제 환경에서 테스트했으며, 시스템은 뛰어난 일반화 성능을 보이며 인간 플레이어를 효과적으로 이겼습니다. 그들은 "우리의 다중 에이전트 프레임워크의 물리적 배포는 타임 트라이얼(time trials), AI 전용 레이스, 그리고 스위스 드론 레이싱 5회 챔피언인 Marvin Schaepper와 함께한 인간-AI 혼합 경기를 아우르는 레이싱 실험을 통해 검증되었습니다"라고 기술했습니다.
분노를 통한 인간의 약점: 주목할 만한 현상 중 하나는 인간이 시스템을 따라잡으려 노력함에 따라 더 위험한 행동을 취했다는 점입니다: "일반적으로 자율 에이전트보다 뒤처져 있던 인간 조종사는 격차를 줄이기 위해 점점 더 공격적인 기동을 시도했으며, 이는 종종 게이트 충돌이나 제어 상실로 이어졌습니다"라고 그들은 기록했습니다. 레이스 후, 조종사는 무엇이 기계를 그토록 뛰어나게 만들었는지에 대해 회고하며, 중요한 요소 중 하나로 "에이전트들이 극도로 촘촘한 대형을 유지하는 능력"을 꼽았습니다. 그는 이러한 근접 비행은 인간 조종사가 유지하기 어려울 것이라고 언급했습니다. 또한, 밀집된 그룹이 인지 부하(cognitive workload)를 증가시켜, 여러 상대가 근접하여 비행할 때 추월 기동을 예측하고 실행하는 것을 어렵게 만들었다고 보고했습니다.

“상호작용 인지 훈련 (interaction-aware training)의 이점은 다중 에이전트 경쟁 상황에서 명확해집니다,”라고 그들은 기술했습니다. “1대1 레이스에서 우리의 정책 (policy)은 5회 시도 모두 100% 완주율을 유지한 반면, 인간 조종사는 평균 53.33%에 그쳤습니다. 이러한 성능 격차는 경쟁적 압박이 인간 조종사에게 더 위험한 행동을 유도한다는 것을 시사하며, 이는 우리가 학습시킨 정책에서는 나타나지 않는 패턴입니다.”

구체적인 수행 방법: RL (강화학습) 시스템은 “Agilicious 프레임워크와 통합된 Flightmare를 사용하여” 시뮬레이션 환경에서 훈련 및 평가되었습니다. 그들은 “이러한 효과를 계산 가능한 수준으로 근사화하는” 입자 기반 시뮬레이션 (particle-based simulation)을 개발하여 프로펠러 하강풍 (propeller downwash) 시뮬레이션을 구현했습니다. 그들의 전반적인 다중 에이전트 RL 구현은 “Stable-Baselines3를 기반으로 하며, 리그 기반 셀프 플레이 (league-based self-play) 및 독립 학습 (independent learning) 구성을 지원하도록 확장되었습니다.” 그들은 실제 세계에서 성공적으로 작동할 수 있는 정책을 훈련하기 위해 도메인 무작위화 (domain randomization, 기본적으로 시뮬레이션 내의 기체 역학 및 초기 조건을 변경하는 것)를 사용합니다.
그들은 실제 세계를 위한 별도의 특수 훈련을 수행하지 않았으므로, 정책들은 시뮬레이션 내의 데이터를 사용했습니다. 쿼드로터 (quadrotors)는 모두 “Agilicious 프레임워크를 기반으로 한 동일한 레이싱 플랫폼으로, 질량은 220 ± 3g, 추력 대 중량비는 6.5, 프로펠러 직경은 3인치”였습니다. 인간 조종사에게는 기록된 실험 전에 몇 시간의 연습 비행 시간이 주어졌습니다.

한 가지 큰 주의사항 – 로컬에서 실행되지 않음: 이 중 어느 것도 로컬에서 실행되는 것이 아니라, 성능이 괜찮은 컴퓨터에서 실행되며 네트워크를 통해 드론을 조종합니다. 이는 중요한 주의사항인데, 드론이 실제 분쟁 시나리오에 등장할 때는 일반적으로 상당한 양의 전자전 (electronic warfare)이 발생하는 환경에서 등장하기 때문입니다 (물론 오늘날 인간이 비행하는 방식처럼, 광섬유 케이블을 통해 원격 RL 정책으로 조종되는 드론을 보게 될지는 의문입니다).

영상을 통해 기묘한 느낌을 확인해 보세요: 기계가 비행하는 방식과 인간이 비행하는 방식 사이의 차이를 체감하기 위해, 페이지에 있는 영상들을 꼭 확인해 보시길 강력히 권합니다. 여기서 제가 강조하고 싶은 핵심은 드론의 기묘할 정도로 매끄럽고 일관된 움직임입니다. 마치 (인간이 조종하는) 블루 엔젤스(Blue Angels)를 드론 형태로 보는 것과 같습니다. 그에 비해 인간은 훨씬 더 거칠고 불규칙해 보입니다. 여기에는 무언가 기이하고 약간은 불안한 구석이 있습니다.

이것이 중요한 이유 – 지능적인 정신이 3D 공간에서 무엇을 할 수 있는지 파악하기: 오늘날 우리가 AI 시스템을 경험하는 주된 방식은 코드를 작성하는 것부터 우리와 대화하는 것에 이르기까지, 디지털 공간에서 디지털 또는 통신 작업을 수행하며 우리와 함께 일하는 도구 또는 에이전트(Agent)로서의 모습입니다. 제가 이 연구에서 놀랍다고 생각하는 점은, 잘 최적화된 지능이 실제 물리적 세계에 나타났을 때 무엇을 할 수 있는지를 우리가 직관적으로 볼 수 있게 해준다는 것입니다. 이 드론들을 조종하는 것과 같은 지능들이 소형화되어 네트워크 연결 컴퓨터에서 온보드 장치(Onboard device)로 옮겨갈 때, 미래의 갈등(Conflict) 양상은 어떤 모습일지 스스로에게 질문해 보십시오.
더 읽어보기: Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning (arXiv).
영상 시청: 인간과 AI가 조종하는 드론 영상 보기 (공식 프로젝트 웹사이트, 취리히 대학교).

Import AI 460: 보상 해킹 사회, Anthropic의 RSI 데이터, 그리고 RL 기반 쿼드콥터 레이싱

요약

핵심 포인트

댓글