5분 만에 살펴보는 지난 6개월간의 LLM 동향

요약

지난 6개월간의 LLM 시장은 Claude 4.5, GPT-5.1, Gemini 3 등 주요 모델 간의 치열한 성능 경쟁이 이어졌습니다. 특히 강화학습을 통한 코딩 에이전트의 비약적인 발전이 핵심이었으며, 이는 단순한 코드 작성을 넘어 실무에 적용 가능한 수준으로 진화했습니다.

핵심 포인트

Claude 4.5, GPT-5.1, Gemini 3 등 주요 모델들의 지속적인 성능 순위 변동
검증 가능한 보상을 통한 강화학습(RLVR)을 통한 코딩 에이전트의 품질 혁신
코딩 에이전트가 단순 보조 도구에서 실무용 '데일리 드라이버' 수준으로 발전
OpenClaw와 같은 새로운 프로젝트의 등장과 이에 따른 하드웨어(Mac Mini) 수요 증가

5분 만에 살펴보는 지난 6개월간의 LLM 동향

2026년 5월 19일

저는 저의 최신 주석 달기 프레젠테이션 도구를 사용하여 PyCon US 2026에서 진행한 5분 라이트닝 토크(lightning talk)를 바탕으로 이 주석이 달린 슬라이드를 구성했습니다.

언제나 그렇듯, 모델 간의 차이를 설명하기 위해 '자전거를 타는 펠리컨의 SVG 생성하기' 테스트를 사용하고 있습니다.

왜 이 테스트일까요? 펠리컨은 그리기 어렵고, 자전거도 그리기 어려우며, 펠리컨은 자전거를 탈 수 없기 때문입니다... 그리고 어떤 AI 연구소도 이런 터무니없는 작업을 위해 모델을 훈련시킬 가능성은 제로에 가깝습니다.

11월 초에 널리 인정받는 "최고"의 모델은 9월 29일에 출시된 Claude Sonnet 4.5였습니다. 이 모델은 저에게 이 펠리컨을 그려주었습니다.

11월에는 GPT-5.1에 추월당했고, 그다음에는 Gemini 3, 그다음에는 GPT-5.1 Codex Max가 뒤를 이었으며, 이후 Anthropic이 Claude Opus 4.5로 다시 왕좌를 탈환했습니다.

제 생각에 이들 중 Gemini 3가 가장 잘 그린 펠리컨을 그렸지만, 펠리컨이 전부는 아닙니다. 대부분의 실무자들은 Opus 4.5가 이후 몇 달 동안 왕좌를 지켰다는 점에 동의할 것입니다.

이 사실이 명확해지는 데는 시간이 조금 걸렸지만, 11월의 진짜 뉴스는 코딩 에이전트(coding agents)가 매우 좋아졌다는 것이었습니다.

OpenAI와 Anthropic은 2025년 대부분을 검증 가능한 보상을 통한 강화학습 (Reinforcement Learning from Verifiable Rewards)에 할애하여, 특히 자신들의 Codex 및 Claude Code 에이전트 하네스(agent harnesses)와 결합되었을 때 모델이 작성하는 코드의 품질을 높이는 데 집중했습니다.

11월에 이러한 노력의 결과가 분명하게 나타났습니다. 코딩 에이전트는 '자주 작동하는' 수준에서 '대부분 작동하는' 수준으로 발전하며, 모델의 어리석은 실수를 수정하는 데 대부분의 시간을 소비할 필요 없이 실제 업무를 수행하기 위한 데일리 드라이버(daily-driver)로 사용할 수 있는 품질의 장벽을 넘어섰습니다.

12월부터 1월까지의 연휴 기간 동안, 우리 중 많은 이들이 휴식을 활용하여 이 새로운 모델들과 코딩 에이전트들을 직접 다뤄보며 무엇을 할 수 있는지 확인했습니다.

그것들은 정말 많은 것을 할 수 있었습니다! 우리 중 일부는 조금 과하게 흥분하기도 했습니다. 저 또한 제가 이 모델들을 어디까지 밀어붙일 수 있는지 확인하기 위해 터무니없이 야심 찬 프로젝트들을 시작하면서, 일종의 짧고 덧없는 LLM 정신병 (LLM psychosis) 증상을 겪기도 했습니다.

그 플레이그라운드 데모는 제가 만든 마이크로 자바스크립트 (micro-javascript) 라이브러리를 사용한 자바스크립트 (JavaScript) 코드가 파이썬 (Python)에서 실행되고, Pyodide 내에서 실행되며, WebAssembly (Wasm) 상에서 실행되고, 다시 자바스크립트 (JavaScript) 상에서 실행되어 브라우저 (browser)에서 돌아가는 모습을 보여줍니다!

꽤 멋지긴 합니다! 하지만 세상 그 누구라도 파이썬 (Python) 내에서 실행되는, 버그가 많고 느리며 보안에 취약한 미완성된 자바스크립트 (JavaScript) 구현체가 필요했을까요?

아니요, 필요하지 않았습니다. 그 연휴 기간 동안 시작했던 프로젝트 중 이후 조용히 은퇴시킨 것들이 꽤 많이 있습니다!

12월과 1월 동안 그것은 꽤 여러 번의 이름 변경을 거쳤고... 2월이 되자 최종 명칭인 OpenClaw라는 이름으로 세상을 휩쓸기 시작했습니다.

생성된 지 3개월도 되지 않은 프로젝트가 받은 관심의 양은 정말 놀라운 수준입니다.

실리콘 밸리(Silicon Valley) 주변에서는 Mac Mini가 품절되기 시작했는데, 사람들이 자신의 Claw를 구동하기 위해 그것들을 구매했기 때문입니다.

Drew Breunig은 이것이 Claw가 새로운 디지털 반려동물이 되었기 때문이며, Mac Mini는 당신의 Claw를 위한 완벽한 어항이라고 저에게 농담을 던지기도 했습니다.

제가 Claw에 대해 가장 좋아하는 비유는 2004년 영화 <스파이더맨 2>에 나오는 알프레드 몰리나(Alfred Molina)의 닥터 옥토퍼스(Doc Ock)입니다. 그의 촉수(claws)는 AI에 의해 구동되었으며, 억제 칩(inhibitor chip)에 아무런 손상만 없다면 완벽하게 안전했습니다... 하지만 그 칩이 손상된 후에는 악해져서 통제권을 장악해 버렸죠.

그러고 나서 Google의 제프 딘(Jeff Dean)이 자전거를 타는 애니메이션 펠리컨 영상과 함께, 뼈가 있는 자전거(penny-farthing)를 타는 개구리, 작은 차를 운전하는 기린, 롤러스케이트를 타는 타조, 스케이트보드로 킥플립(kickflipping)을 하는 거북이, 그리고 스트레치 리무진을 운전하는 닥스훈트의 영상을 트윗했습니다.

그러니 어쩌면 AI 연구소들이 결국에는 주의를 기울이고 있었던 것일지도 모릅니다!

4월에 등장한 또 다른 멋진 중국산 오픈 웨이트 (open weight) 모델은 Qwen에서 나왔습니다. 제 노트북에서 실행된 Qwen3.6-35B-A3B는 Claude Opus 4.7보다 더 나은 펠리컨을 그려냈습니다. 제 노트북에서 돌아가는 20.9GB 크기의 오픈 웨이트 (open weights) 모델입니다!

(제 생각에 이것은 자전거를 탄 펠리컨이 유용한 벤치마크 (benchmark)로서의 한계를 확실히 넘어섰음을 보여주는 것 같습니다.)

이것이 지난 6개월간의 두 가지 주요 테마였습니다. 코딩 에이전트 (coding agents)는 정말 뛰어나졌고... 노트북에서 사용 가능한 모델들은 프런티어 (frontier) 모델들보다 훨씬 약하긴 하지만, 기대를 훨씬 뛰어넘는 성능을 보여주기 시작했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

5분 만에 살펴보는 지난 6개월간의 LLM 동향

요약

핵심 포인트

5분 만에 살펴보는 지난 6개월간의 LLM 동향

댓글