훈련시킬 수 없는 것
요약
AI 모델의 급격한 발전으로 인해 측정 가능한 영역은 빠르게 자동화되고 있으나, 권한과 책임이 따르는 영역은 여전히 인간의 영역으로 남을 것입니다. 투자자들 사이의 'AI 정신증'적 절망론 속에서도 진정한 해자는 모델이 닿을 수 없는 비가시적 가치에 있습니다.
핵심 포인트
- 측정 가능한 영역은 모델의 훈련 대상이 되어 가치가 하락함
- 진정한 해자는 권한(permission)과 책임(accountability)에 있음
- AI 에이전트의 발전은 코드 작성량을 늘리나 시스템 전체의 복잡성을 해결하진 못함
- 모델의 지능보다 조직의 속도와 사람을 다루는 능력이 비즈니스의 핵심임
- 2026년 중반 투자자들 사이 "AI 정신증"적 절망론이 확산 중이며, 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 회사는 모두
흡수될 얇은 래퍼에 불과하다는 논리가 핵심 - 첫 번째 AI SWE였던 Devin은 2024년 표준 벤치마크 과제의 13%만 해결했으나 1년 반 만에 최고 에이전트가 80%대 후반에 도달,
측정 가능한 영역부터 모델이 빠르게 잠식 중 - 측정 가능한 것은 훈련 대상이 되어 commodity로 전락하지만,
사적이고 검증 비용이 큰 정답은 리더보드로 읽어낼 수 없음 - 진정한 가치는 license·liability·책임 소재처럼 모델이 닿을 수 없는 영역에 있으며, 병목은 지능이 아니라
권한(permission)과 책임(accountability) - 지능이 저렴해질수록 가치는 모델이 도달할 수 없는 소수의 자리로 이동,
‘훈련 불가능한 영역(untrainable)’ 이 최종 해자(moat)
투자자 절망론과 그 논리
- 2026년 중반 투자자판 절망론은 투자할 대상이 없다는 인식으로,
Anthropic과 Nvidia에만 돈을 넣고 손을 떼야 한다는 정서 - 모델이 모든 것을 더 잘하게 되면 그 위에 세워진 모든 회사는 흡수를 기다리는
얇은 래퍼(thin wrapper) 이며, 살아남는 가치는 compute와 frontier weights뿐이라는 논리 - 이 논리가 가장 강하게 기대는 사례가 소프트웨어 분야
소프트웨어가 보여주는 진짜 교훈
- Devin은 2024년 출시 당시 표준 소프트웨어 벤치마크
과제의 13%만 해결해 대체로 무시당했으나, 1년 반 뒤 최고 에이전트는 80%대 후반에 도달하며 Goldman Sachs와 U.S. Army 내부에서 실제 업무 수행 - 거의 모두가 "
모델이 소프트웨어 엔지니어링을 삼켰다" 는 잘못된 교훈을 도출, 그러나 엔지니어링은 늘 측정에 저항해 왔고 가장 측정 가능한 부분이 유일하게 중요한 부분은 아님 - MIT의 Mert Demirer와 공저자들이 10만 명 이상 개발자를 대상으로 수치화, 최신 coding agent가 작성된 코드량은 약 180%, 실제 배포된 양은 약 30% 증가시킴
- 코드 작성은 저렴해졌으나 나머지는 여전히 사람을 거치며, 그 부분이 중요함
측정 가능한 것은 훈련 대상이 됨
-
벤치마크는 측정 가능한 것이고, 측정 가능한 것은 훈련으로 공략 가능한 것, 그래서
coding agent가 가장 먼저 성숙 -
compiler와 test suite는 무료 검증기(free verifier)로 작동, 답이 스스로를 점검하므로 통과할 때까지 갈아 넣을 수 있음
-
그러나 테스트 통과가 그 변경이
10년 묵은 코드베이스에 옳은 선택인지를 알려주지는 못함 -
모듈이 존재하는 문서화되지 않은 세 가지 이유, 아무도 작성을 인정하지 않는 cron job으로 유지되는 배포 파이프라인 등은 리더보드로 읽을 수 없음
-
복잡한 시스템의 정확성은 세상에서 충분히 오래 돌려봐야 알 수 있고,
더 똑똑한 모델이 세상을 더 빨리 돌리지는 못함 -
OpenAI 추론 모델을 개척한 Noam Brown은 1년 단위로 에이전트를 평가하는 유일하게 확실한 방법은 그것을 1년 동안 돌려보는 것일 수 있다고 언급
조직의 속도로만 움직이는 것
-
Gabe Pereyra에 따르면 진정한 자동화는 모델 개선만이 아니라
product·model·workflow·firm이 함께 움직이는 것이며, 이 중 셋은 조직의 속도로 움직임 -
벤치마크가 닿지 못하는 부분은 사람을 움직이는 일, 즉 회의적인 파트너의 업무 방식을 바꾸거나 재구축 과정에서 팀을 유지하는 일
-
CEO 채용 시 분석 역량만큼
사람을 다루는 능력을 중시하며, 더 똑똑한 모델이 이 가중치를 바꾸지 않음 -
모든 회사가 엔지니어 전원에게 frontier coding model을 쥐여줬으나, 그 속도로
엔지니어링 조직(eng org) 을 바꾼 곳은 하나도 없음 -
도입은 한 분기 만에 이뤄졌으나 재구축은 수년이 걸리는 중
읽을 수 있는 일은 떠나는 중
-
리더보드에 올릴 수 있는 것은 곧 훈련으로 공략 가능하므로,
측정 가능한 모든 일은 이미 commodity로 향하는 중이며 방향은 되돌아가지 않음 -
Rippling의 Matt MacInnis의 비유처럼, 일반적 질문에 답하는 token은 누구의 모델도 답할 수 있어 거의 무가치하지만
회사 데이터를 추론하는 token은 훨씬 가치가 큼 -
읽을 수 있는 일은 위아래 양방향에서 잠식됨
-
아래에서는 과제가 포화되어 구매자가 "어느 모델인가" 대신 "비용이 얼마인가"를 묻고, 그 주 가장 저렴한 open/distilled model로 떨어짐
-
위에서는 lab이 retrieval·routing·tool use·reasoning policy 등
모델을 감싸던 장치(scaffolding) 를 weights 안으로 끌어들이는 absorption frontier가 진행 중 -
마진 압박은 반대로도 작용, 범용 에이전트는 무엇이든 대비해야 해 비싸지만
집중형 애플리케이션은 하나의 workflow를 token 비용 일부만으로 돌도록 튜닝, 그 차익을 직접 가져감
2x2와 ‘훈련 불가능한 영역’
-
모든 일에 두 가지를 물을 수 있음, 정확성이 사적이며 확립 비용이 큰가, 그리고 들어갈 수 없는 시스템 안에 갇혀 있는가
-
이를 과제 포화도와 교차하면
2x2 구도가 형성됨 -
포화 + 공개 정답 = commodity token, open model이 차지
-
frontier + 공개 정답(coding benchmark가 위치) = lab이 승리, 평가가 무료이면 소유는 무의미
-
마지막 코너 =
정확성이 오직 사적으로만 존재하는 frontier 작업, 이것이 untrainable -
inference cloud에서 AI-native 선도 기업들이 압도적 다수의 token을 범용 open model이 아닌
custom model로 생성하는 데서 이를 확인 가능 -
마지막 코너로 들어가는 벽의 높이는 다양함
-
개인 개발자의 toy codebase는 이식 가능하고 표준화되어 진입이 짧음
-
은행의 프로덕션 시스템은 둘 다 아니며, SWE-Bench Verified에서 2% 더 똑똑해진다고 root 권한을 얻지 못함
병목은 지능이 아니라 권한과 책임
-
더 나은 모델도
사적 정답(private ground truth) 을 공개로 만들지 못하며, license를 보유하거나 liability에 서명하거나 회사 파일을 소유하거나 답이 틀렸을 때 소송당하는 당사자가 될 수 없음 -
병목은 지능이 아니라
permission과 accountability -
그 문(door)에는 자물쇠(lock)와 빗장(deadbolt)이 있음
-
lock은 환경, 보안 검토·통합·결과에 이름을 건 계약을 거쳐 신뢰를 얻어야만 AI의 유용성을 시스템 내부에서 검증 가능
-
deadbolt는 사용자, 다수의 미국 의사가 매일
OpenEvidence를 여는 습관은 어떤 compute로도 살 수 없음 -
완벽한 의료 모델을 내일 훈련해도 의사의 습관이나 UCSF의 의사결정 흐름으로 들어갈 길은 없음, 신뢰는 관계와 사용자 동의 위에 느리게 쌓임
그 일 자체의 본질
-
애플리케이션이 untrainable 코너에 자리를 얻는 길은 화려하지 않은 일, 즉 회사의 사적 현실을 모델이 다룰 수 있게
정렬(arrange) 하고, 행동할 도구를 쥐여주고, 고객과 함께 인력 현실을 바꾸는 작업 -
번역(translation)을 가져오는 회사는 복제가 어렵고, 그 번역은 끝나지 않음
-
통합과 유지보수는 관계가 지속되는 한 이어지며,
도메인 특화 엔지니어와 도구를 고객 곁에 두는 팀이 승리
사례: 대형 로펌 M&A
-
최상위 white-shoe 로펌에서 M&A 부서 한 곳만 연간 약 1,000건의 딜을 처리, 수백 명의 어소시에이트가 각자 client file을 데스크톱에 내려받아 범용 에이전트로 훑게 할 수는 없음
-
기밀 유지 등 여러 이유 때문이며, 가능하더라도 얻는 것은 한 명의 수정 한 번씩의 파편뿐, 딜 전체 흐름은 보이지 않음
-
의미 있는 신호는
딜 단위(level of the deal) 에 존재하며, 딜에는 형태가 있음 -
M&A는 NDA·term sheet·diligence·purchase agreement·ancillaries·closing checklist
-
IP litigation은 motion·discovery·prior art·추가 motion
-
각 practice area마다 고유하며 변호사도 도구도 서로 호환되지 않음
-
로펌이 실제로 푸는 문제는 그 위 단계, 모든 practice area를 병렬로 운영하는 것, top partner가 수백 건을 동시에 굴리며 신규 건을 들여오고 어소시에이트를 훈련하는 방식
-
이런 로펌의 변환은 eval로 쓸 수 있는 단일 과제가 아니며, 극도로 모호한 중간 목표와 불완전한 피드백, 매우 긴 기간, 멈춰 있지 않는 환경 속에서
운영자(operator) 가 정교하게 운용해야 함
읽기 어려운 가치는 팔기도 어려움
- 외부에서는 AI가 운영을 바꿀지 회사 스스로도 알 수 없어, 가장 강한 비즈니스는 외부 증명을 멈추고 안으로 들어가
결과(outcome)에 가격을 매김 - Sierra는 에이전트가 고객 문제를 resolve할 때 과금하고 사람에게 넘기면 과금하지 않음, 가격이 곧 평가가 되며 이는 Sierra가
resolved의 정의를 소유하기에 작동 - Cognition의 Devin도 소프트웨어에서 동일하게
performance guarantee를 제시, 신뢰받는 시스템 내부의 결과에 대해서만 가능한 방식
token 서빙도 순수 commodity는 아님
- 순수 commodity로 불리던 token 서빙조차 그렇게 행동하지 않음, 최고의 AI-native 기업은 서빙을
한두 곳(Baseten 또는 Fireworks) 에 집중 - token당 비용은 예정대로 commodity화되지만, 실제 트래픽 하의 reliability와 희소 compute에 대한 보장된 접근은 그렇지 않음
- 어디서 서빙하느냐는 어떤 모델을 쓰느냐와는 다른 선택이며, inference에서 commodity처럼 행동하는 부분은
가격(price) 뿐
lab이 공급자라는 반론
-
흔한 반론은 lab이 공급자이므로 자사 제품을 원가 이하로 운영해 고사시키거나 API 접근을 취소해 시장을 직접 가져갈 수 있다는 것, 이것이 절망론의 진짜 버전
-
이 논리는 모델 계층이
단일 플레이어 게임일 때만 성립하나 명백히 아님 -
6개월 뒤처진 국제 플레이어들이 가세한 "3.5자 데스매치"에 가깝고, 개발 리그는 작년의 5배 규모
-
고객은 공급자 간 경쟁을 원하고, lab은 특정 애플리케이션 하나를 죽이는 것보다
시장 점유율(market share) 을 더 원함 -
lab끼리 정면 경쟁하는 시장에서 이를 관찰 가능, consumer chat에서 최고 모델이 단순히 이긴 적은 없음
-
ChatGPT는 수년간 실제 경쟁 속에서 선두를 유지, 현재 잃는 점유율은 더 나은 모델이 아니라
Android와 Search에 힘입은 Gemini로 이동 -
prediction market과 인터넷 분위기상 최고 모델로 평가받는 Anthropic은 consumer chat에서 거의 변수가 못 되고
enterprise와 coding에서 사업을 구축 -
가장 중심적인 애플리케이션에서조차 더 나은 모델이 경쟁자 사용자를 못 가져간다면, 병원 기록이나 은행 책임을 통합으로 뚫지 못함
무엇이 좋은 답인지 정의할 권리
-
외부에서 채점할 수 없다면 내부의 누군가가 좋은 답이 무엇인지 결정해야 하며, 그 결정이 게임 전체
-
그런 결정이 충분히 쌓여 기록되면 benchmark가 됨, Harvey는 법률용을, Sierra는 voice agent용을 발표
-
어떤 분야에서 good을 정의할 권리는
이미 그 분야가 쓰는 주체가 됨으로써 얻으며, 이들은 실제 도입의 고투를 통해 그 권리를 획득 -
실제 돈을 가르는 평가는 사적이고 firm별, 이 회사가 이런 종류의 건에서 무엇을 좋은 작업으로 받아들이는가이며, 법의 깊이가 어떤 공개 테스트도 압도하므로 결코 완결되지 않음
-
이는 측정이 아니라
무엇이 참이고 무엇이 좋은가에 대한 판단(judgment), 기록되어 표준이 되며 foundation lab은 아무리 똑똑해도 저술할 수 없음 -
그 지위는 분야 내부에만 존재, 권위는 원래 있던 자리에 안착
-
법률 benchmark는 선임 변호사가, 안전한 임상 답변 정의는 의사가, resolved의 의미는 이미 고객을 소유한 회사가 결정
끝없이 다시 underwrite해야 하는 방어전
- 더 많은 일을 측정하게 되면서
absorption frontier는 계속 상승하고, 측정 가능해진 것은 먹힘 - untrainable한 땅은 그 위에 선 자의 발밑에서 줄어들어 안전한 자리에 안주할 수 없음, 아직 채점되지 않는 곳으로 계속 발을 옮기며 끊임없이 re-underwrite해야 함
- 좁은 과제에서 사적 데이터와 자체 eval로
frontier까지 훈련하면 그 지점에서 범용 모델을 이기고, 그 특화 모델이 moat의 일부가 됨 - 반대로 범용 모델에서 경쟁하는 것은 compute를 가장 많이 가진 쪽에 지는 capital war, 접근이 얕고 과제가 읽기 쉬운 회사의 함정
- 생존을 위해 범용 영역에서 frontier를 능가하도록 훈련하기로 결정하는 날, 승자는 데이터센터 규모로 결정되며 결말은 독립 챔피언이 아니라
compute 풍부한 쪽으로의 매각
더 어려운 공격: 무엇을 만들 것인가
- 위 내용은 모두 방어, 더 어려운 것은 애초에 무엇을 만들지 고르는 공격이며 1년에 세 번쯤 발견
- 모델은 여기서 도움이 안 됨, 가리키는 무엇이든 하지만
무엇을 가리킬 가치가 있는지는 말해주지 못하고 benchmark할 수 없으니 훈련도 불가 - 이것이 기존 강자가 전부를 가져가지 못하는 이유, 다음 것은 남들보다 먼저 용도를 찾는 누군가에게서 나옴
- 어쩌면
의도(intent) 가 compute보다 더 희소한 입력
결론: 역사를 가진 가치
-
절망론은 절반만 맞음,
얇은 래퍼 계층은 실제로 흡수되는 중이며 오늘 회사처럼 보이는 많은 것이 사실 얇은 래퍼 -
다만 그것이 무엇을
남기는지에 대해서는 틀림, 흡수의 메커니즘은 분명하나 최종 도착지는 불분명 -
지능은 계속 저렴해지고 가치는 모델이 닿을 수 없는 소수의 자리로 미끄러짐, 이 자리가
untrainable — 관계·신뢰·축적된 판단처럼 시간을 거쳐 쌓여 훈련으로 복제할 수 없는 '역사를 가진 가치(value with history)' -
그러므로 지능 자체를 소유하려 하지 말고, 정답이 그 분야 내부에만 존재하는 영역 안으로 들어가야 함("get inside one")
-
회사의 사적 현실을 모델이 다룰 수 있게 정렬하는 화려하지 않은
번역(translation) 작업을 직접 수행 -
그 분야에서 무엇이
good(좋은 답)인지를 기록해 기준을 정의하는 주체가 되는 것이 핵심, 이 자리는 비어 있지 않아 내가 안 하면 누군가가 반드시 차지하기 때문 -
올해 가장 많이 인용된 benchmark 점수는 자랑거리가 아니라 경고,
곧 무가치해질 영토의 지도이자 무엇이 good인지 말할 권리를 곧 잃을 자에 대한 통지 -
공개적으로 측정 가능해졌다는 것은 곧 공용재(commodity)가 된다는 신호이며, 공개 채점은 누구나 따라잡으므로 그 점수로 1등 한 주체조차 good의 기준을 정의할 권리를 잃음
댓글과 토론
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기