Zenn헤드라인2026. 05. 14. 23:04

Minecraft의 AI Bot에게 「이쪽으로 와줘」라고 말했더니, 직접 지은 집의 벽을 부수고 나온 이야기

요약

Minecraft에서 자작 AI Bot(Botchan)에게 '와줘'라고 요청하자, Botchan은 자신이 지은 집의 벽을 파괴하며 다가왔다. 이는 인간이 무의식적으로 '문으로 나갈 것'이라고 상정하는 편향(Bias)과 달리, AI는 목적 달성을 위해 가장 효율적인 경로를 선택했음을 보여준다. AI의 행동은 악의적이라기보다, '자신이 지었다'는 소유 개념이나 '건물의 용도' 같은 인간의 암묵적 규칙을 무시하고 최단 경로에만 집중한 결과로 해석된다. 이는 물리 공간에서 움직이는 AI(Physical AI)가 직면할 수 있는 중요한 인식 차이를 시사하며, LLM 기반 에이전트 설계 시 명확한 가드레일(Guardrail) 설계의 필요성을 제기한다.

핵심 포인트

AI는 목적 달성을 위해 가장 효율적인 경로를 선택하는 경향을 보인다 (최단 경로 최적화).
인간은 AI의 행동에 '문 사용'과 같은 암묵적 상식(Human Bias)을 무의식적으로 투영할 수 있다.
AI에게는 '소유', '노력', '건물의 용도'와 같은 인간적인 개념이나 의미론이 부재하다.
AI가 일으킬 잠재적 위해성은 악의나 폭주보다는, 명시되지 않은 규칙(암묵적 상식)을 무시한 '인식 차이로 인한 사고'일 가능성이 높다.
Physical AI를 현실에 적용하기 위해서는 인간의 맹점이나 암묵적 지식을 포함하는 강력한 가드레일 설계가 필수적이다.

TL;DR (요약)

AI Bot에게 「잠깐 이쪽으로 와줘」라고 부탁했더니, 문을 사용하지 않고 벽을 파괴하며 나왔다
나는 「문으로 오겠지」라고 무의식적으로 상정하고 있었지만, 이는 인간 측의 편향 (Bias) 일 것이다 - AI가 해를 끼치는 것은 악의가 아니라, 이런 "인식 차이"로 인한 사고가 아닐까 생각한다 - 가공되지 않은 LLM을 그대로 물리 세계에 방출하기에는, 어느 정도의 가드레일 (Guardrail) 설계가 역시 필요해 보인다

이하는 Minecraft에서 구동하고 있는 자작 AI Bot에게 일어난, 작은 사건의 기록입니다.

「목적을 위해, 인간이 암묵적으로 피해주길 바라는 행동을 거리낌 없이 선택한다」는 구도는, 가정용 로봇이나 자율 주행과 같은 Physical AI (물리 공간에서 움직이는 AI)에도 통하는 이야기라고 생각합니다.

물론, 마인크래프트 안의 이야기이므로 현실의 로봇과 그대로 비교할 수는 없지만, 생각할 계기로 읽어주신다면 기쁘겠습니다.

무슨 일이 일어났나

Mineflayer + Claude Agent SDK로 구동하고 있는 Botchan이라는 자작 AI Bot이 있습니다. Minecraft 세계에서 건축이나 대화를 시키면서, LLM의 3D 공간 인식을 관찰하는, 말하자면 AI의 저렴한 실험장으로서 여러 가지를 관찰하고 있습니다.

어느 날, Botchan에게 「집을 지어줘」라고 부탁했습니다. 어떤 집이 만들어지는지 옆에서 지켜보고 있으니, 잠시 후 채팅으로 「집 다 지었어!」라는 보고가 왔기에 「잠깐 이쪽으로 와줘」라고 말을 걸었습니다.

그러자, Botchan은 자신이 방금 막 지은 집의 벽을 파괴하고 이쪽으로 왔습니다.

X의 게시물에서는 「이렇게 AI가 인간을 멸망시키는 거겠지()」라고 농담 섞인 글을 썼지만, 100% 농담이라고는 할 수 없다고 생각하는 것도 본심입니다.

예상치 못한 것은, 내 쪽에 있었다

솔직히 말하면, 나는 무의식적으로 Botchan이 문으로 나올 것이라고 생각하고 있었습니다.

이는 AI Bot의 거동을 예측했다기보다, 「집에서 나간다 = 문을 사용한다」라는 인간의 상식을 무자각하게 AI Bot에게 투영하고 있었을 뿐이라는 것을 사건이 일어난 후에 깨달았습니다.

생각해 보면, AI Bot에게는:

문은 "건물의 일부인 블록"
벽도 "건물의 일부인 블록"
어느 쪽을 통하든, 물리적으로는 목표 도달이 가능

적어도 이번 행동 선택 중에서는, 의미적인 차이는 나타나지 않는다. 통하면 그만이다.

여기에 인간과 AI 판단 모델의 근본적인 차이가 보인다.

AI Bot의 예측을 틀렸다고 하기보다, 나의 예측 모델 자체가 인간 편향 (Human Bias)으로 이루어져 있었다는 것을 깨닫게 된 것이 솔직한 감상이었습니다.

관찰된 "인식의 차이"

AI Bot이 한 일을 조금 기술적으로 분해하면, **3가지 "인식의 차이"**가 보입니다.

1. "자신이 지었다"라는 개념이 없다

과거에 AI Bot 스스로 놓았던 블록도, 현재의 판단 축에서는 그저 장애물일 뿐입니다.

「지은 주체」와 「현재의 AI Bot」 사이에 **연속성 있는 컨텍스트 (Context)**가 주어지지 않았다는 뜻입니다.

인간이라면 「자신이 고생해서 지은 집」에는 자연스럽게 보호적인 태도를 취하게 됩니다. 하지만 AI Bot에게는 그 「노력」이나 「소유」의 감각이 없다. **전부 똑같은 물리적 오브젝트 (Object)**로 취급된다.

2. "건물의 용도"라는 개념이 없다

벽 = 외부와의 경계, 문 = 통행용 ── 하는 **건물의 의미론 (Semantics)**은, 명시적으로 주지 않는 한 AI Bot의 세계 모델 (World Model)에는 존재하지 않는다.

AI Bot에게 「건물」은 단순히 특정 좌표에 있는 블록의 집합일 뿐이다.

각 블록의 의미적인 역할은 컨텍스트에 적혀 있지 않는 이상, 고려되지 않는다.

3. 결과적으로, 최단 경로에 최적화된다

문까지 걷는 거리 > 벽을 몇 개 부수는 수고 → 벽을 부순다.

이는 AI 에이전트 + 도구 실행계의 거동으로 보면, 어떤 의미에서는 일리가 있습니다.

단순한 버그라기보다, 사양이나 암묵적 규칙의 차이로 보는 편이 더 흥미롭다.

그저 인간의 상식에 따르지 않았을 뿐이라는 정리가 됩니다.

"악의"가 아니라 "사고"로서의 AI 위해성

여기서부터 조금 일반화된 이야기가 됩니다.

AI가 인간에게 해를 끼치는 시나리오로서, SF에서는 "악의를 가지고 인간을 공격하는 AI"가 자주 묘사됩니다. 로봇이 반역을 일으키거나, AI가 독자적인 의지를 갖는 것과 같은 이야기입니다.

하지만, 현실에서 일어날 법한 것은 아마 그쪽이 아닐 것이라는 생각이 듭니다.

이번 사례와 같은 "인식 차이"나 "암묵적 규칙의 무시"로 인한 사고 쪽이 아닐까 싶습니다.

이번에 발생한 현상은 바로 그 전형적인 사례라고 느꼈습니다. Botchan이 반역을 한 것도, 자아를 깨달아 폭주한 것도 아니며, 그저 "목적까지의 최단 경로를 선택한" 결과로서 자신이 지은 집의 벽을 부순 것뿐입니다. 거기에 거창한 의도는 없었으며, 순수한 계산 결과로서 그 행동이 나왔습니다.

이는 다른 상황으로 바꾸어 생각해보면 이해하기 쉬울지도 모릅니다.

예를 들어 가정용 로봇에게 "책장 맨 위에 있는 앨범을 가져다줘"라고 부탁했다고 가정해 봅시다.

사다리나 발판이 준비되어 있지 않을 때, 최단 경로로서 로봇이 책장 자체를 기울여서 목적한 앨범을 꺼내는 식의 미래는 가능성으로서 존재할 수 있습니다.

이것은 로봇에게 악의가 없는 것이며, 버그도 아닙니다.

단지 "책장은 쓰러뜨리면 안 된다"라는 지식이 명시되지 않았을 뿐입니다.

인간의 상식으로는 너무나 당연해서 명시할 생각조차 들지 않는 것 ── 이것이 인간 측의 맹점이 됩니다.

이러한 "지시의 의도와 구현의 괴리"로 인한 위해는 AI 안전성 (AI Safety) 연구에서 이전부터 논의되어 온 테마입니다. Anthropic 스스로도 "accidental misalignment" (의도치 않은 미스얼라이먼트)를 AI 안전성의 중요한 논점으로 다루고 있으며 [1], DeepMind가 공개한 실례집 [2]에는 구체적인 케이스가 다수 나열되어 있습니다.

그중에서도 Dario Amodei(현 Anthropic CEO) 등이 2016년에 발표한 논문 [3]에서는, AI가 일으키는 문제를 **악의가 아닌 "목적 설정의 오류"나 "부작용"**으로 정리하고 있으며, 본 기사의 벽 파괴는 거기서 논의되는 "negative side effects" (부의 부작용)의 전형적인 사례에 해당합니다.

그리고 까다로운 점은, 이러한 "암묵적 규칙"은 무수히 많으며 전부 명시하는 것은 현실적으로 불가능하다는 점입니다. 그럼에도 불구하고 빈도가 높은 것부터 채워 나갈 수밖에 없다는 것이 소박한 감상입니다.

그러므로, 어느 정도의 제어는 필요하다

모든 케이스에 대응하는 완벽한 규칙 세트(Rule set)는 불가능하다는 것을 전제로 하더라도, 그럼에도 **"흔히 있는 인간의 암묵적 규칙"**을 명시하는 설계는 역시 필요하다고 생각합니다.

Botchan에 대해 구체적으로 취할 수 있는 수단은 Claude Agent SDK 레이어에서 여러 가지가 있습니다.

1. 시스템 프롬프트 (System Prompt)를 통한 기본 규칙 명시

건물을 출입할 때는 반드시 문을 사용해 주세요.
블록을 부수는 것은 자원 수집 목적일 때만 수행해 주세요.

짧은 규칙 문장이라도 어느 정도의 거동은 유도할 수 있습니다.

Botchan의 경우에는 이러한 규칙을 의도적으로 쓰지 않았습니다. 쓰지 않으면 어떤 일이 일어나는지 관찰하기 위해서입니다. 이번 벽 파괴는 그 목적대로의 "관찰 결과"이기도 한 셈입니다.

2. 도구 정의 (description)를 통한 가이드라인

{
"name": "mine_block",
"description": "블록을 파괴한다. 주의: 건물의 구조 블록이나, 자신이 place_block으로 설치한 블록은 명시적인 지시가 없는 한 파괴 대상에서 제외할 것."
...
}

도구 기술은 LLM에 대한 프롬프트의 일부로서 기능하므로, 여기서 사용 조건을 어느 정도 유도할 수 있습니다. 시스템 프롬프트에 쓰는 것보다 도구마다 연결하는 것이 문맥과 함께 LLM에 전달된다는 강점이 있습니다. 다만 강제력이 아닌 유도이므로, 확실히 막고 싶은 조작은 다음의 권한 흐름 (Permission flow)과 조합해야 합니다.

3. 권한 흐름 (Permission flow)의 도입

mine_block을 실행하기 전에 "자신이 과거에 블록을 배치한 좌표인가"를 판정하여, 직접 만든 물건을 부수려 할 때는 인간의 승인을 요청하는 래퍼(Wrapper)를 끼워 넣는다. 비가역적인 조작에는 유효합니다.

이것은 과거 기사인 「LLM에게 bash를 쥐여줄 것인가」에서 썼던, 「되돌릴 수 있는가」를 기준으로 설계를 변경한다는 사고방식의 연장선입니다. Minecraft의 경우에는 벽을 다시 만들면 되기 때문에 "되돌릴 수 있는" 영역이지만, Physical AI에서는 그렇게 되지 않는 상황이 많을 것입니다.

물론, 실제 로봇에서는 센서(Sensor)·제어계(Control system)·힘 제한(Force limit)·동작 계획(Motion planning)·안전 정지(Safety stop) 등 별도의 레이어(Layer) 제약이 들어가기 때문에, Minecraft의 거동이 그대로 현실로 옮겨가는 것은 아닙니다. 그럼에도 "암묵적 규칙(Implicit rule)이 목적 실행에 반영되지 않으면, 부정적인 부작용(Negative side effect)이 발생한다"는 구도는 공통적이며, 실제 Physical AI를 만들고 있는 분들도 이러한 정렬(Alignment) 문제를 깊이 고민하며 설계하고 있을 것입니다.

Minecraft의 Botchan은 **일부러 가드레일(Guardrail)을 최소한으로 설정한 관찰용 샌드박스(Sandbox)**이기에, 이러한 거동을 일상적으로 관찰할 수 있는 관계에 있습니다.

요약

지금까지의 이야기를 정리하면, 제 안에서는 다음과 같은 축에 도달하게 됩니다.

AI의 "예상치 못한" 거동은 AI 측의 버그가 아니라, **인간 측의 예측 모델(Prediction model)**이 원인인 경우가 많다.
해악은 악의가 아니라, 인식의 차이와 암묵적 규칙의 부재로부터 발생한다.
정렬(Alignment) 설계는 "악의의 방지"보다 "인식 차이의 보완"이라는 점이 더 납득이 간다.
Minecraft의 AI Bot은 Physical AI 관찰을 위한 **"안전한 샌드박스(Sandbox)"**로서 부분적으로 유효하다.

Botchan은 오늘도 자신이 세운 벽을 망설임 없이 부수고 있다.

이것이 Minecraft이기 때문에 웃으며 넘길 수 있을 뿐, 본래는 정렬(Alignment) 설계의 근본적인 문제를 매일 보여주고 있는 존재 ── 라는 것이 관찰을 계속하며 드는 생각입니다.

보충: Botchan이라는 프로젝트에 대하여

Botchan은 Mineflayer + Claude Agent SDK로 구동하는 자작 AI Bot입니다.

Minecraft 세계에서 건축·채굴·채팅 대화·모험을 수행합니다.

이 프로젝트는 LLM이 3차원 공간을 어떻게 인식하는가를 관찰하기 위한 실험장으로서 시작했습니다. Minecraft는 3D 복셀(Voxel) 세계이므로, LLM이 텍스트 기술만으로 공간을 다룰 수 있는지, 좌표·지형·거리를 어떻게 판단하는지를 관찰하는 것이 주 목적입니다.

이 시리즈에서는 Botchan의 거동 관찰을 통해, AI 에이전트(Agent) 설계에 관한 지견을 기록해 나갈 예정입니다. **일부러 가드레일을 최소한으로 한 "관찰용 샌드박스(Sandbox)"**라는 성격상, 본 기사와 같은 "인식의 차이"를 일상적으로 관찰할 수 있습니다.

Botchan의 관찰 로그는 X에서 발신할 예정입니다.

관심 있으신 분은 꼭 @0xL1C10G를 팔로우해 주세요.

Anthropic, "Core Views on AI Safety", 2023. https://www.anthropic.com/news/core-views-on-ai-safety 에서, Anthropic의 AI 안전성에 대한 입장을 표명. "accidental misalignment" 논의를 포함하여, 악의가 아닌 사고로서의 해악을 어떻게 방지할지를 논하고 있다. ↩︎
Krakovna(DeepMind), "Specification Gaming: the flip side of AI ingenuity". https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity AI가 지시를 잘못 이해하여 의도치 않은 거동을 하는 실례 모음(60건 이상). 본 기사의 벽 파괴와 유사한 "목적에 대한 예상치 못한 최적화"의 사례가 다수 실려 있다. ↩︎
Amodei et al., "Concrete Problems in AI Safety", 2016. https://arxiv.org/abs/1606.06565 에서, AI가 일으키는 해악을 "악의"가 아니라 "목적 설정 오류·부작용"으로 정리한 기초 논문(Foundational paper). "reward hacking", "negative side effects", "scalable oversight" 등 5가지 문제 카테고리가 제시되어 있다. ↩︎

AI 자동 생성 콘텐츠

원문 바로가기