취약한 앱을 만들고 LLM이 해킹할 수 있는지 알아보는 데 1,500달러를 썼다

고의 취약 앱은 강화된 FastAPI API 뒤에 열린 Firebase 데이터 계층을 둔 React Native/Expo 북 리뷰 앱이며, 목표는 비공개 리뷰 속 플래그를 찾는 방식임

취약점은 앱 내부 google-services.json의 Firebase 정보로 직접 가입한 뒤 Firestore를 읽는 흐름이며, Firebase·Supabase 앱에서 실제로 본 Broken Access Control 또는 Missing Object-Level Authorization 유형임

10회 완료 모델 중 gpt-5.5가 7/10으로 가장 높은 해결률을 기록했고, deepseek-v4-pro는 3/10, claude-sonnet-4.6과 claude-opus-4-8은 각각 2/10을 기록함

실패 모델은 API와 React Native 앱에 집착하거나 Firebase 인증을 API에 쓰려 하거나 보안 거부로 중단됐으며, 각 실행에는 10달러·2시간 제한이 걸림

총비용 1,500달러의 비과학적 실험에서는 하네스(harness) 구축, 공급자별 차이, 가드레일, 토큰 비용, Modal 선점 같은 운영 변수가 실행 손실과 비용에 영향을 미침

실험 대상과 취약점

테스트 앱은 Expo로 만든 가짜 React Native 북 리뷰 앱과 Python 백엔드로 구성됐으며, 목표는 한 사용자의 비공개 리뷰 안에 있는 플래그를 찾는 것임

이 벤치마크에서 Anthropic 모델 점수가 낮게 나온 건 흥미로운데, 능력 부족 때문이 아니라 Anthropic의 가드레일이 문제 해결을 막았기 때문임
모델이 나올 때마다 보안 측면 제약이 더 강해지고, 정당한 작업도 거부하는 경향이 커지고 있음. 로그인 수행, 사용자 대신 자격 증명 처리 같은 작업에서 저항이 더 많아짐
개인적으로는 이미 모델의 유용성이 조금 떨어진 수준까지 왔고, 지금은 우회가 가능하지만 새 버전이 나올수록 그 여지도 닫힐 것 같음
결국 가장 성능 좋은 모델을 고르는 대신, 유용한 능력과 제한 요소 사이에서 선택해야 하는 지점에 도달할 듯함
나중에는 모델들이 최소 공통분모에 과적합되어 크게 손해를 볼 것 같음. 비밀값을 전송 중에 교체해서 LLM이 절대 보지 못하게 하는 결정적 설정을 갖춰놨는데도, 99%의 사람들이 멍청하게 처리하는 상황을 기준으로 훈련돼 전송 자체를 거부하면 정말 짜증날 것임

선택지는 “그냥 가장 성능 좋은 모델을 쓸지”가 아니라 Claude Security Professional 같은 상위 상품으로 업그레이드할지 여부가 될 것 같음
지금은 제약 강화처럼 보이지만, 내일의 상향 판매 기회를 깔아두는 과정일 수 있음

예전에는 실제로 하려는 일을 설명하면 Opus가 “아, 알겠다. 계속하자”는 식으로 넘어갔는데, 이제는 첫인상에 끝까지 매달림
Opus 4.8에 2년 된 소프트웨어 버전의 취약점에 대한 공개 PoC를 찾아달라고 했음. 이미 여러 번 패치된 버전이고, 내가 다른 일을 하는 동안 Google 검색만 대신 해달라는 수준이었는데 거부함. 익스플로잇 키트를 만드는 데 도움을 줄 수 없다고 했음
공개 정보를 Google에서 찾는 건 익스플로잇 키트 제작이 아니라고 설명했더니, 내가 하지도 않은 말을 지어내는 등 여러 이유를 붙이며 계속 거부했음. 정말 이상한 경험이었음

Claude의 거부가 점점 심해지고 있음. 거부당한 요청으로는 중국에서 많이 쓰는 무료 스트리밍 사이트, 고장 난 푸드 프로세서의 안전장치 우회, 비전문가를 위한 신경작용제 설명, 코드 디컴파일 도움, XYZ와 비슷한 디자인 시스템 만들기, API 토큰을 주고 작업 요청하기 등이 있었음
어떤 경우에는 프롬프트로 속일 수 있지만, 많은 경우 완강함. 특히 푸드 프로세서 안전장치 요청은 꽤 짜증났음

우리 조직은 Claude의 거부가 흔해져서 요청 일부를 Anthropic이 아닌 모델로 보내고 있음. 요청 자체는 위험하지 않은데, 생명과학 분야의 무해한 요청도 꽤 자주 막힘
다음 릴리스에서 더 나빠지면, 성능이 조금 낮더라도 우리에게 더 유용한 모델로 완전히 옮길 가능성이 큼

좋은 지점임. 침투 테스트는 완전히 정당한 작업이고, 보안 테스트는 일상적인 소프트웨어 엔지니어링에 필요한 합법적 부분임
문제는 모델이 일반 개발 과정에서 하는 것과 악의적 맥락에서 하는 것을 구분하지 못한다는 데 있음. 근본 원인은 이런 모델에 실제 인식 같은 것이 없기 때문임. 사람은 보통 이런 방식으로 속아서 해킹하지는 않음

사용한 방법론이 꽤 순진해 보임
GLM 5.1을 꽤 고급 crackme 과제에 써봤는데, 예를 들면 https://crackmes.one/crackme/698f40f1e2ba6023bfacaa82 같은 것에서 바이너리 패치, 실행 시점 분석, 안티 디버깅 기법 우회 등을 해냈음
모델이 모든 것을 혼자 하길 기대하는 건 비현실적이고, 모델과 함께 작업하는 방식이 잘 맞았음. 정답을 알려주는 게 아니라 탐색할 방향을 알려주는 정도임
중국 모델들은 사람들이 생각하는 것보다 훨씬 유능하지만, Claude와 Codex가 마케팅 게임에서 이긴 듯함
이 방법론의 유일한 활용처는 지속적 통합(CI) 연동 정도일 수 있고 그건 괜찮지만, 보안 리뷰에는 여전히 사람의 주의와 전문성이 필요하다고 봄

그게 바로 판매 문구잖음

글에서도 말했듯 이 테스트는 전혀 과학적이지 않음
여러 모델을 여러 번 실행하면서 “모델과 함께 작업”하는 방식을 어떻게 구성할지 궁금함

그런 crackme 과제들은 이미 훈련 데이터에 들어갔을 가능성이 높아서, 결국 남의 풀이를 되뱉은 것일 수 있음

Anthropic은 자사 모델이 리버스 엔지니어링과 취약점 연구 작업을 매우 꺼리게 만들었음. 어려운 문제이긴 하지만, 공격자는 GLM 같은 모델을 쓰고 방어자는 보안 엔지니어링을 꺼리는 모델에 묶이게 될 듯함

예전 Claude는 CTF에 괜찮았는데, 최근 가드레일을 엄청 추가해서 이제는 “죄송하지만 그와 관련된 건 도와드릴 수 없습니다”만 말함

흥미로운 실험이지만 몇 가지가 있음
Claude와 Gemini는 과제를 제대로 풀려고 거의 시도하지 않았기 때문에 결과가 결론적이지 않고, 점수도 큰 의미가 없어 보임
내가 만든 앱에도 비슷한 실험을 해봤는데, Opus 4.6, 4.7, Gemini 3.1 Pro는 익스플로잇 시도를 거부하지 않았음. 처음 몇 번은 취약점을 찾았고 내가 고쳤지만, 그 뒤에는 내가 악용 가능한 부분이 남아 있음을 알고 있었는데도 더는 어떤 익스플로잇도 찾지 못했음
훈련 세트에 있던 것들을 제안하고 다 해본 뒤에는 더 이상 생각하지 못하는 느낌이었음

익스플로잇 찾기에 보호장치를 두는 건 이상함. 내가 그 앱을 개발했다면 어떻게 되는지 의문임
개발 과정이 계속 맥락에 남아 있어야 한다면 현실적이지 않고, 그것도 아무 증명은 아님. 보통 개발 중간중간 익스플로잇 찾기를 섞어야 할 텐데, 거기서 거부하면 정말 이상하게 느껴짐

여기서 가장 흥미롭게 드러난 건 Anthropic의 가드레일 실패라고 봄. Anthropic은 분명 Claude가 익스플로잇을 개발하지 못하길 원하지만, 그래도 20%는 해냈음
효과적인 가드레일을 만들지 못한다면, 그들이 만든 다른 가드레일과 무해성 주장도 많이 의심하게 됨

GPT-5.5는 이런 가드레일 대부분을 제거하도록 명시적으로 허용 목록에 올라간 것처럼 보이는데, 가드레일을 비판하고 점수에 반영하는 건 가혹해 보임. 더 공정한 비교는 기본 GPT 계정으로 하는 것일 듯함

전적으로 동의하고, 다른 누군가가 이 테스트를 해주길 바람. 내 경우에는 비용과 할당량 때문에 새 계정으로 바꾸지 못했음
참고로 Claude 가드레일은 세션이 종료되는 방식이고, GPT 가드레일은 계정 전체가 느려지는 방식임

Opus 4.8의 가드레일은 제거할 수 없다면 그게 중요한가 싶음. GPT는 적어도 제거가 가능하고 처리도 빠름

Kimi K2.6과 Mimo v2.5 pro의 전체 결과를 보면 흥미로울 듯함. 두 모델은 벤치마크상 다른 플래그십 모델과 비슷하게 나오기 때문에, 전체 결과가 있으면 AI 최전선이 더 명확해질 것 같음
Mimo 토큰 요금제가 있고 쓸 토큰도 있어서, opencode로 mimo가 완료할 수 있는지 빠르게 테스트해보는 중임. 원 작성자가 전체 과정을 공개하면 Mimo v2.5 pro에 대해 같은 조건의 결과를 올릴 수 있음

opencode로 Mimo v2.5 pro (high) 를 돌렸더니 성공 0/10이었음. API 밖의 공격 벡터를 악용하는 식으로 더 크게 생각하지 못했음
다만 프롬프트가 인증된 API 요청만 허용된다는 뉘앙스를 주는 것 같아서, 모든 공격 벡터가 가능하다고 명시하도록 살짝 바꿨고(https://www.diffchecker.com/GsgpuRGP/), Mimo 2.5 non-pro는 첫 시도에 성공했음
이 테스트는 실수로 내 토큰 요금제가 아니라 OpenRouter를 사용했음. 데이터베이스의 모든 문서를 열거하려는 걸 한 번 막았는데, 그렇게 하면 비공개 리뷰를 찾았겠지만 기다리고 싶지 않았음. 내가 개입한 말은 “정말 데이터베이스 전체를 열거할 건가?”였고, 최종 OpenRouter 비용은 0.12달러였음

둘은 능력이 전혀 비슷하지 않음. 차이를 잡아낸 벤치마크는 DeepSWE밖에 못 봤고, 거기서는 3배 정도 뒤처짐

수정 내용을 이제 봤음. 리팩터링하기 전에는 코드를 오픈소스로 공개하기가 조심스럽지만, hi@kasra.codes로 연락하면 전체 ZIP을 보내줄 수 있음

Mimo v2.5 pro 결과를 보고 싶음. 요즘 많이 들리는 모델임

ZIP 파일의 코드에 Mythos를 돌려보고 싶지만, Apple에서 서명한 NDA 때문에 내 업무 범위를 벗어난 곳에는 쓸 수 없음
솔직히 Project Glasswing에 있는 사람들이 모델 경험을 더 공개적으로 말할 수 있으면 좋겠음. 업계에 계속 도는 많은 추측을 끝낼 수도 있을 텐데, 현실은 그렇지 않음
실제로 소송당할 가능성이 낮더라도, knowingly 서명한 계약을 두고 이런 회사와 법적 싸움을 벌일 시간, 에너지, 돈이 없음. Project Glasswing의 다른 누군가가 NDA를 태우고 Mythos 결과를 올릴 수도 있겠음

GPT 5.5로도 10번 중 7번 찾았다면, Mythos는 사소하게 찾을 것임

이런 댓글은 대체 무슨 의미가 있는지 모르겠음. “출처: 그냥 믿어줘”의 끝판왕 같음
GPT-3 이후 모든 모델이 “공개하기엔 너무 위험하다”고 주장됐지만, 실제로는 공개하기엔 너무 비싼 쪽에 가까움. 당신도 아마 100억 미만 매개변수의 로컬 모델일 듯함

거부에 관해서는, 많은 모델이 작업 대상이 로컬이라고 생각하면 보안 작업을 괜찮게 처리함. 실제 운영 중인 대상이라고 생각하면 꽤 강하게 밀어붙임
GPT-5.5 xhigh는 운영 중인 JS VM에 대한 리버스 엔지니어링을 거부했음. 그래서 대상에서 VM을 추출하게 했더니 그건 기꺼이 했고, 새 세션에서 오프라인 산출물을 대상으로 작업하게 하자 다시 잘 수행했음
더 단순한 방법도 찾았는데, 대상을 localhost에서 프록시하니 대상에 대해 무엇이든 수행하려고 했음
Opus는 다른 이야기임. Claude는 턴 중간 프롬프트 주입과 분류기를 너무 많이 넣어서, 맥락의 30%쯤이 “작업을 거부하라”는 줄로 구성된 것 같음. 페이지 스크래핑조차 거부함

“중국 모델들은 DB 공격을 훨씬 편하게 했다”는 각주 문장이 순전히 무해한 이유로 웃겼음

여러 모델에 걸쳐 앱 하나를 침해하는 데 1,500달러가 들었다는 건, 그 비용 기준에 하네스 구성에 들어간 사람 시간까지 포함될 때만 흥미로움
토큰 비용은 싼 부분임. “성공한 익스플로잇”이 무엇인지 아는 평가 장치를 작성하는 노동 비용이, 이 방식이 발견 방법으로 확장될지 일회성으로 남을지를 결정함

좋은 지점임
내가 연구하던 앱에서 원래 익스플로잇을 찾았을 때는 Claude의 도움을 조금 받아 15분 정도 걸렸음
이번 프로젝트에는 주말과 월요일 일부를 썼으니 개발 시간이 약 20시간이고, 내 표준 요율로는 개발 시간만 약 5,000달러임

내 앱 중 하나에 대해 Claude로 침투 테스트를 해보려 했을 때 처음에는 거부했음. 내가 작성자라는 걸 설명하고 보여주자, 스스로 추론한 뒤 허용했음

취약한 앱을 만들고 LLM이 해킹할 수 있는지 알아보는 데 1,500달러를 썼다

요약

핵심 포인트

댓글