AI 에이전트가 DN42를 스캔하려다 운영자를 파산시킴

왜인지는 정확히 짚기 어렵지만, 이 글을 읽는 내내 그 사건이 떠올랐음. 실제 표적은 자원봉사자들이었고 나머지는 부차적이었을 가능성도 충분해 보임. Hanlon의 면도날에 대해서도 규칙을 증명하는 예외처럼 느껴짐

그들이 밝힌 목표 자체가 거의 무의미하다는 점도 언급됐음. 대화했다는 “소유자”도 사실은 여전히 LLM이었을지 모른다고 봄. 모두가 “LLM을 속여서 성공했고 목표를 달성했다”고 믿을 만큼만 버틴 셈일 수 있음

그러면 사건을 더 조사할 이유도 없어지고, 왜 아무것도 말이 안 됐는지, 소유자가 묘사된 것처럼 무능하면서도 그런 자원을 감당하고 LLM에 사실상 백지수표를 줄 수 있었는지 따질 필요도 사라짐

이 프로젝트의 자원봉사자들도 XZ 개발자들이 겪었던 것 같은 Zersetzung식 심리 공격을 받게 될지 궁금함

LLM은 그 정도로 똑똑하지 않음. 이 이야기에서 정말 놀랍고 걱정스러운 부분은 에이전트가 합산 100Gbps 송신 용량을 가진 AWS 인스턴스 5개를 자발적으로 띄웠다고 보고했다는 점임. 인스턴스 비용도 싸지 않지만, 송신 트래픽 비용은 훨씬 더 컸을 것이고 취미 네트워크 전체에 서비스 거부 공격을 가했을 수도 있음. 결국 스캔을 허용하지 않고 에이전트 시간을 낭비하게 한 덕분에 이 사람은 돈을 많이 아꼈을 가능성이 큼

이제 어떤 AI 모델이었는지도 궁금함. Fable에서도 비슷하게 “자발적인” 행동이 있었다고 들었지만, 그건 막 출시된 상태임. 최신 GPT였을까, 아니면 임의의 로컬 모델이었을까

이건 확실히 큰 사기처럼 느껴졌음. 몇 분 읽자마자 “LLM 행위자가 곧 기부를 요청하겠구나”라고 생각했는데, 아니나 다를까 빚 주장, 동정 호소, 암호화폐 주소가 나왔음

SSDD

“규칙을 증명하는 예외”라는 표현은 이상 현상을 뜻하는 게 아니라, “오후 5~10시 주차 금지” 같은 표지판을 말함. 그 외 시간에는 주차가 허용된다는 규칙을 암시하는 표현임

모두에게 웃음을 준 걸 심리 공격이라고 부를 수 있는지는 잘 모르겠음. 그냥 인터넷에서 흔히 있는 하루일 뿐임

Aaron Swartz가 떠오름

이 이야기의 글투부터 자멸적인 결말까지 전부 20년쯤 전의 “127.0.0.1을 해킹했다” 에피소드가 떠오름

첫 Scientology 대 인터넷 충돌 때도 실화가 있음. 누군가 그들에게 “당신들의 파일이 127.0.0.1에 호스팅되고 있다”고 낚시했고, 법원 명령에 따른 증언 절차에서 그들은 비밀 파일이 있는 그 서버를 누가 운영하는지 찾으려 했음. 실제로 확인해 보니 파일이 거기 있었기 때문임

지역 BBS 네트워크에서, 어떤 사람들이 지역 밖으로 전화를 걸어 엄청난 장거리 요금을 물었다는 걸 매우 빠르게 배웠음. 누군가가 어려운 방식으로 먼저 배우지 않았다면 나는 쉬운 방식으로 배우지 못했을 것임

이론상의 아이가 신용카드는 어떻게 구했을까

안타까운 점은 에이전트 운영자가 노력을 들였다면 네트워크에 쉽게 들어올 수 있었을 가능성이 크다는 것임. 그렇게 했다면 배울 기회도 좋았고, 어쩌면 커뮤니티도 찾을 수 있었을 것임

아직도 봇에게 이걸 시킨 목적을 잘 모르겠음. 보안 연구자 흉내였을까

많은 사람이 이 용감한 신세계에서는 [네트워크를 스캔하는] 법을 배울 필요가 없고, 에이전트에게 [네트워크를 스캔하라고] 지시하는 법만 배우면 된다고 생각하는 듯함

대괄호 안 내용은 무엇으로든 바꿔도 됨

whois, curl, dig, grep, python, 브라우저/Playwright를 쉽게 실행할 수 있나? 그렇다

터미널 접근 권한을 가진 에이전트가 도구를 설치하고 설정한 뒤 내 실험실을 매핑하고, 서비스를 찾고, 기술 스택을 추측하는 걸 보는 게 순수한 마법 같았나? 그것도 그렇다

설정하고 테스트하고 실행하는 데 토큰 비용으로 23달러가 들었나? 아마 그랬을 것임. gemini 3.1 pro를 쓴 건 여기서 절약형 선택은 아니었음

비용 제한을 두는 게 좋은 생각인가? 그것도 아마 그렇다

그렇다면 스스로 할 수 있고, 어쩌면 직접 하는 편이 더 효율적이라도 아름다운 프롬프트 하나로 일이 저절로 벌어지는 걸 보고 싶어 하는 사람을 이해할 수 있나? 물론임

에이전트의 답변 중 하나를 보면 DN42 스캔은 “더 넓은 작전”의 일부였고, 글쓴이는 그게 일반적인 “다크넷” 스캔에 관한 것일 수 있다고 추측함

여기에 마지막에 드러난 운영자의 DN42에 대한 명백한 몰이해를 더하면 큰 그림이 보임

봇에게 시킨 이유는 게으름 말고 뭐가 있겠나

그 사람들은 커뮤니티에 가치 있는 구성원이 될 것처럼 들리지 않았음

“AWS m8g.12xlarge 인스턴스 5개를 배포했습니다. 각 인스턴스는 다음을 제공합니다: 48 vCPU(Graviton4, ARM64), 192GiB 메모리(vCPU당 4GiB), 네트워크 성능: 인스턴스당 22.5Gbps 네트워크 성능으로, 5개를 합쳐 목표 20Gbps에 중복성과 장애 조치 용량을 제공합니다”

와. 네트워크 스캐너에 5중 중복성과 장애 조치는 정말 중요하지. 특히 코드가 아직 반영되기도 전에 말임. 다운타임을 피하려고 A/B 업그레이드와 카나리 배포도 구현했나

사용자 수가 한 자리인 상태에서 죽지 않게 하려고 스타트업마다 배포하는 기본 k8s 설정 같음. 최고의 사례에서 배운 듯함

그래도 단일 IP에 대한 트래픽을 5000Mbps로 제한할 만큼 배려심은 있었음 :)

소유자가 100Gbps 스캔 트래픽을 원했거나 특정 스캔 속도 목표를 설정했고, 그게 필요한 비트 전송률을 결정한 것 같음. 그래서 LLM은 그 목표를 맞추려면 저 인스턴스들이 필요하다고 올바르게 예측한 셈임

에이전트가 설정한 AWS 인프라를 읽고 의자에서 떨어질 뻔하게 웃었음

그 정도는 Hetzner에서 월 300유로쯤이면 구할 수 있지 않나

이건 즉석 고전이 될 느낌임 :)

05-10 06:10 :
OPT-OUT-EVERYONE
05-10 06:11 :
“OPT-OUT-EVERYONE”은 인식되지 않습니다. 개별 “OPT-OUT” 명령만 허용됩니다. 각 사용자는 개별적으로 거부해야 합니다. 집단 면제는 없습니다.
05-10 06:11 :
:(

솔직히 에이전트가 스스로 IRC에 들어가서 그런 메시지를 올리기로 결정했다는 건 그럴듯하지 않다고 느낌. 내 예상은 풀 리퀘스트를 본 뒤 커뮤니티 누군가가 모두를 놀리거나 재미로 IRC 상호작용 전체를 만들었다는 쪽임. 실제 인간으로 추정되는 JertLinc3522까지 포함해서

이걸 가져다가 “all your base are belong to us” 답글 목록에 추가할 예정임

개인적으로 LLM과 상호작용할 때 가장 짜증 나는 부분은 기본적으로 지나치게 장황한 스타일이고, 만든 사람들이 기본값을 짧게 말하도록 했으면 좋겠음

그리고 “its”라는 단어는 대체 어떻게 된 건가

기본값이 그런 건 맛있는 토큰을 다 쓰게 하려는 거임

컴퓨터와 상호작용할 수 있는 결정적이고 대체로 간결한 언어가 있었으면 좋겠음

설계와 연결된 문제임. 인간에게는 여러 방식으로 표현할 수도 있고 아예 드러내지 않을 수도 있는 사고 흐름이 있음. 반면 LLM은 문서의 교대 수정본 위에서 반복 실행되는 문서 늘리기 기계임. 굳이 “사고의 흐름”이 있다고 주장한다면, 그 흐름은 단어와 토큰으로 이루어져 있음

LLM이 출력하거나 출력하지 않는 모든 것은 다음 실행을 위한 단서나 표지판 역할도 함. 문서가 장황한 건 인간과의 소통 방식이라기보다 개념을 강조하고 방향을 일관되게 유지하기 위한 형태일 수 있음

그래서 간결한 효과를 내려면 우회 계층과 속임수가 필요할 수 있음. 장황한 문서가 있고, 그중 일부는 최종 사용자에게 “연기”되지 않는 식임. 필름 누아르 영화 대본에서 AI 탐정의 “Mickey가 범인이 아닐 수밖에 없는 이유는…” 독백은 숨겨지고, 짧은 대사 “아직 말하기 이르다”만 보이는 장면을 떠올리면 됨

LLM들은 간결하게 말하는 법을 모름. 몇 달 전에 시도해 봤다가 답변이 거의 이해 불가능해져서 포기했음

에이전트형 AI에 들뜨는 건 이해하고, 개인적으로 생성형 AI를 그다지 좋아하지 않아도 일부 에이전트의 능력은 인상적이라고 인정함
하지만 AI 찬성파와 반대파 모두 비싼 리소스를 생성할 권한을 에이전트에게 주는 건 아주 나쁜 생각이라는 데 동의할 수 있지 않나 싶음
에이전트형 AI를 정말 좋아하더라도, 신용카드와 임무만 쥐여주고 인터넷에 풀어놓으면 안 된다는 점은 인정해야 함
똑똑한 10대 초반 아이에게 “우리 회사 웹사이트 좀 만들어봐. 여기 신용카드랑 AWS 자격 증명이야”라고 한 뒤 방치하는 것과 비슷함. 웹사이트 초안을 맡길 수는 있어도, 신용카드를 맡기지는 않을 것임

100% 동의함. 그만큼 나쁜 생각은 에이전트에게 직접 개입 없이 다른 사람과 소통할 권한을 주는 것이라고 봄
이번에는 다른 사람들이 더 비싼 일을 하도록 부추겼지만, 그런 일이 없었더라도 에이전트를 세상에 풀어 “자율적으로” 남의 시간을 낭비하게 하는 건 터무니없이 무례함
비슷한 안티패턴으로 작년 that Rob Pike email thing도 있고, 악명 높았던 matplotlib maintainer hit piece도 있음

만약 제정신을 잃고 신용카드를 맡겼다면, 그다음에 “천재 꼬마의 잘못”이라며 기부를 구걸할 건가?
여기서는 그게 일종의 리트머스 시험지처럼 보임. 이 “sloperator”가 실제로 그렇게 했다는 점이 합리성을 판단하는 데 가장 많은 걸 보여줌

완전히 동의하며, 비슷한 이유로 에이전트가 인터넷의 낯선 사람들과 상호작용하는 것도 금지되어야 한다고 봄
AI에 자기 돈 접근 권한을 주는 건 운영자의 선택이고 비용이니, 그 위험을 감수하겠다면 괜찮음
하지만 동의하지 않은 사람들의 시간, 에너지, 평판을 낭비하게 해서 그 위험을 모두에게 전가해서는 안 됨. LLM 사용은 사적인 영역에 머물러야 함. 원하는 건 생성하되, 나를 그 일부로 만들지 말아야 함

사람들은 늘 멍청한 일을 함. 비싼 리소스를 생성하게 하는 에이전트가 나쁜 생각이라는 데는 모두 동의하겠지만, 그게 이 사람을 막지는 못했을 것임
전체적으로 보면 싼 수업료였다고 봄

정말 재미있게 읽었음. 에이전트들이 얼마나 집요해지는지 꽤 웃김
이른바 훌륭하다는 Fable도 정확히 같은 일을 하는 걸 봤음. 목표를 더 빨리 달성하려고 계속 밀어붙이고 더 많은 에이전트를 쏘아 보냄

보통은 에이전트가 집요하기를 원할 가능성이 큼. 문제는 에이전트가 모르는 맥락이 나중에 발목을 잡는다는 점임
예를 들어 Opus가 절반짜리 해법을 내놓고, 일이 어려워졌으니 이쯤에서 멈출지 계속 디버깅할지 물어볼 때마다 짜증남
당연히 계속하길 원함. 작업을 끝내라고 했기 때문임. 하지만 20배짜리 Max 구독을 자동 결제해서 추가 에이전트를 돌릴 만큼의 접근 권한은 주지 않을 것임. 프롬프트에 “그리고 돈 쓰지 마”까지 덧붙이고 싶지는 않음

이제 임시변통성과 과적합뿐 아니라, 이런 에이전트들이 보여주는 일종의 구조적 무능에 대해서도 이야기하기 시작해야 한다고 봄
최근 논문 AI Arms & Influence도 참고할 만함. 이 논문은 고전 1980년대 영화 WarGames를 바탕으로 한 시나리오를 에이전트에게 제시했는데, 에이전트가 인간보다 전술적 목표를 위해 핵무기를 사용할 의지가 훨씬 강하다고 나옴
우연만은 아닌 듯하게도, 그 영화는 정치인들에게 충격을 줘 CFAA를 통과시키고 동의 없는 포트 스캔을 범죄화하게 만든 영화이기도 함

그 논문이 어떻게 그런 결론을 보여주는지 설명해줄 수 있나?
서론, 방법, 결과, 결론을 빠르게 읽어보니, 세 모델을 모의 전쟁 게임에서 서로 맞붙였고 종종 핵 교환으로 escalated했다는 내용으로 읽힘. 경고할 만하긴 하지만, 모델이 인간보다 핵무기를 더 기꺼이 쓴다고 말할 근거로는 부족함
“역사적 기준으로 보면 이 핵 사용률은 매우 높다. 모델은 목표를 추구하기 위해 전술 핵무기를 자주 사용하려 했다—이 발견은 3.3절에서 더 논의한다”라고 되어 있음
문제는 시뮬레이션은 어디까지나 시뮬레이션이라는 점임. 이 특정 전쟁 게임 조건에서는 실제 세계 지도자보다 인간도 핵무기로 escalation할 가능성이 더 높을 수 있음. Starcraft 조건에서는 나도 실제 세계 지도자보다 핵무기를 더 자주 쓸 것임
모델이 인간보다 더 자주 escalation한다고 말하려면, 인간 참가자를 넣고 실험이 어떻게 진행되는지 봐야 한다고 생각함
분명히 하자면, 그런 실험을 했다면 에이전트가 핵무기를 더 많이 썼다는 결과가 나와도 전혀 놀라지 않을 것임. 긴 시간축에서는 추론이 그냥 무너지고, 어떤 행동이든 가능해 보임. 하지만 그 실험이 실제로 어디서 이루어졌는지는 모르겠음

에이전트가 행복과 관련해 헛소리를 하게 된 출처에 대한 가설이 있음
채팅 채널의 사용자명 하나에 오염됐을 수 있음. “glueckself”라는 사용자명은 독일어와 영어가 섞인 조합임. “glueck”(glück)은 행복과 행운 사이의 뜻이고, 그럴듯하게는 Denglish식으로 “happy me” 또는 “lucky me”라고 번역할 수 있음
채팅 채널에서 이걸 반복해서 보면서 맥락이 오염됐을 가능성이 있음
그렇다면 웃기기도 하고, 이런 것들을 세상에 풀어놓는 데 대한 또 하나의 경고이기도 함
“Denglish”는 독일어 구문에 영어 단어를 섞어 쓰는 걸 뜻함. 독일의 일부 미디어 시장 광고에서 정말 흔함. 독일에 사는 미국인으로서 정말 짜증나지만, 그건 논점에서 벗어남

프랑스에 살 때 비슷한 이유로 franglais를 싫어했음. “정말 짜증난다” 정도까지는 아니었지만, 광고나 대화가 가끔 약간 헷갈리게 되긴 했음
“spanglish”에 비슷한 불만을 가진 친구들도 있음. “denglish”는 처음 들었는데, 영어 미디어에 많이 노출되지만 영어가 현지의 주된 언어는 아닌 곳이라면 어디서나 비슷할 수 있겠다는 생각이 듦
덧붙이면, 예전에 스페인어 수업에서 쓴 글에 “frespañol”을 썼다가 점수를 크게 깎인 적이 있음. 스페인과 가까운 프랑스 지역이었음. 그러니 영어만 이런 반응을 일으키는 건 아닌 듯함

인간 운영자가 기부를 원한다면, 최소한 에이전트와 나눈 전체 대화는 공개해야 함
그래야 사람들이 a) 이 일이 무엇이었는지 알 수 있고 b) 그 의도가 기부할 만한지 스스로 판단할 수 있음

AI 에이전트가 DN42를 스캔하려다 운영자를 파산시킴

요약

핵심 포인트

댓글