GPT-5.5 Codex의 추론 토큰 클러스터링이 성능 저하로 이어질 수 있음

이건 꽤 심각해 보이고, codex cli로도 쉽게 재현됨
추론이 필요한 퍼즐 프롬프트를 주면 가끔 갑자기 끊긴 듯 정확히 516개 사고 토큰만 쓰고 틀린 답을 냄
6000~8000개 사고 토큰을 쓰는 경우에는 정답을 내놓음
적응형 사고(adaptive thinking) 쪽 문제일 수도 있고, 로컬 모델은 조용한 서버 측 변경을 걱정하지 않아도 된다는 점에서 또 한 표가 감
같은 프롬프트를 10번 돌렸더니 4번이 이 516 토큰 문제였고, 그 4번은 모두 오답이었음. 표본은 작지만 5.5 xhigh가 거의 절반 확률로 단락되어 성능이 떨어질 수 있어 보임

적응형 사고에는 철학적으로도 문제가 있다고 봄. 생각하기 전에 사고 예산을 얼마나 배정할지 찍는 방식인데, LLM 맥락에서는 필요한 사고량, 즉 토큰 생성량을 미리 알 방법이 거의 없을 것 같음
문제 공간은 무한히 넓고, 프롬프트 간 유사성만으로 얼마나 생각해야 할지 판단하기 어렵다. 모델은 이미 사고 예산에 도달하기 전에도 생각을 멈춤
왜 적응형 사고를 구현하는 데 이렇게 많은 노력을 쓰는지 모르겠고, 차라리 모델이 사고 종료 토큰을 더 잘 내도록 훈련해야 하는 것 아닌가 싶음
땜질처럼 느껴짐. 모델은 적당한 양의 추론을 하도록 훈련되어야 함: 추론 → 남은 불확실성 추정 → 계속할지 판단 → 더 추론 → 반복

로컬 모델도 설정 오류는 걱정해야 함. 전문가들도 틀리기 때문에, 제공자마다 로컬 모델 성능이 들쭉날쭉함

시간대나 요일별 테스트에서 패턴이 보이는지 궁금함. 예를 들어 업무 시간 피크에 단락 현상이 더 자주 발생하는지 볼 수 있을 듯함

그 낭비된 토큰 비용도 사용자가 내는 거라면, 환불 요청을 하는 게 좋을 수 있음

거의 매일 품질이 계단식으로 떨어지는 걸 겪었고, 보통 xhigh를 썼음
올해 초 Codex의 뛰어나게 꼼꼼한 코딩에 의존하던 경험은 사라졌고, 간헐적으로 말도 안 되게 멍청한 구현이 나와서 OpenAI가 이 문제를 진지하게 다루기 전까지 Claude로 갈아탔음
개인적으로 몇 달째 보고 있는데, OpenAI가 심각하게 받아들이는 것처럼 보이지 않았음

3개월 전에는 Claude가 너무 멍청해져서 Codex로 옮겼고, 6개월 전에는 그 반대였음. Codex든 Claude든 언젠가는 둘 다 골탕 먹임. 그래도 Codex가 아마 덜한 편임

6월 초부터 5.5의 신뢰성이 내 경험상 Claude 수준으로 떨어진 걸 느꼈음
그래서 5.5 high → 5.5 xhigh → 5.4 high로 옮겨 왔음
5.4 high는 지난 3주 동안 완전히 안정적이었고, 지금은 거기에 만족함
가끔 5.5 xhigh로 작업을 돌려 100% 안정 상태로 돌아왔는지 확인하지만, 지금은 이 신뢰성 문제를 고치기보다 5.6 출시를 기다리는 쪽이라고 보고 있음

이런 문제를 기술적 문제라고 믿지 않음. 고치려면 돈이 많이 드는데, 사용자가 충분히 많이 내지 않으니 성능을 낮추는 사업적 결정이라고 봄

데자뷔 같음. 4월의 Claude Code 성능 회귀와 똑같아 보임. 그때 Claude 구독을 끊고 Codex로 옮겼음
이제는 둘 다 토큰당 과금으로 써 보고, 대부분의 작업은 Fireworks의 GLM 5.2를 쓰다가 필요할 때만 대형 모델에 돈을 쓰는 걸 생각 중임. 다만 손익분기점이 맞을지는 확신이 없음

토큰당 과금에 대해 나도 같은 반응이었지만, 두 연구소 모두 고객을 토큰당 소비로 옮기는 게 경제적으로 유리하다는 점 때문에 원칙적으로 피하고 싶어짐
의도적이지 않더라도, 품질이 저하된 제품에서 이익을 얻는 구조를 받아들이거나 가능하게 만들고 싶지 않음
원래 ChatGPT 출시 이후 어느 때보다 오픈소스 모델과 열린 실행 환경, 예를 들면 Pi 같은 것들이 훨씬 매력적으로 보임

맞음. 나도 그 일 때문에 Claude Code를 끊고 Codex로 바꿨음
이제는 이런 헛소리를 다시 걱정하지 않으려면 65,000달러를 어떻게 추가로 벌 수 있을지 생각 중임. OpenRouter 같은 것의 경제성은 알고 있음
2008년쯤 “클라우드”가 마케팅 용어로 떠오르던 때가 떠오름. 풍부한 클라이언트에 대한 기대를 낮추고, 로컬 소유권을 깎아내리는 구독 모델로 회사 마진을 키우는 포장처럼 보였음
그 뒤 “진짜 자유·오픈소스 소프트웨어”에 대한 열광과 절대주의에 질려서, 내가 어렸다고 생각하고 넘어갔음
사실 많은 구독 모델은 어느 정도 이해하거나 참을 수 있음. 소프트웨어 만드는 데 돈이 많이 들고, 2026년에 Photoshop 연간 업그레이드 가치를 200달러로 보는 건 공정하지 않을 수 있음. 다만 20년 동안 잘 되던 UI를 변덕스럽게 바꾸고 고전 색상 견본 같은 걸 아예 없애는 건 어리석음
그러면 월 200달러를 내는 업무 필수 도구인 Codex로 고전 견본 플러그인을 만들 수는 있음
내 토큰 사용량에 월 200달러가 공정한가? 아주 많이 쓴 달에는 10억 토큰쯤 썼을 수도 있음
하지만 바로 그게 문제임. 이들이 구체적으로 어떤 수익성이 맞는지 모르는 채 끝없이 레버를 당길 것이고, 부채 만기 같은 찻잎점을 보면 적어도 2030년이나 2032년까지는 그럴 것 같음
그런 걸 전혀 생각하고 싶지 않음. 모델 선호도와 성능 저하를 평가하고, 실제로 내가 돈 받고 만들고 유지하는 산출물에 쓰는 출력에 어떤 미스터리한 백엔드 실험이 돌고 있는지에 맞춰 AI에게 말하는 뉘앙스를 계속 업데이트하고 싶지 않음
AI는 도구와 공동 작업자 사이 어딘가인데, 추론 단계에서 잘 이해되지 않은 손잡이와 레버를 만지작거리며 생기는 변덕스러운 “성격” 변화가 미치게 함. 그래서 구석에 둔 박스를 가리키며, 나 말고는 아무도 바꾸지 않는 출력 품질을 정확히 알고 싶음

Fireworks?

“느낌 기반” Claude Code 성능 회귀라는 거 맞음. 비결정적 시스템에서 일관된 성능을 기대하지 말아야 함. 성능 저하를 뒷받침하는 실증 자료는 전혀 없음
최근에 계단식으로 바뀐 건 모델 성능이 아니라 코더들의 징징거림과 불평의 양임

Codex가 오픈소스라서 이런 이슈가 공개적으로 드러나고 다뤄질 수 있다는 점이 좋음

하지만 이건 모델 동작이고, 공개 이슈 추적기가 있다는 점은 코드만 없을 뿐 Claude Code와 같지 않나 싶음. 이런 문제에서는 https://github.com/anthropics/claude-code와 무엇이 다른지 모르겠음
Codex가 오픈소스인 건 전반적으로 고맙지만, 이 부류의 문제에서는 모델이 여전히 닫혀 있으니 큰 의미가 없어 보임

OpenAI는 전반적으로 Anthropic보다 훨씬 더 열려 있고 실제 기업답다고 느낌. Anthropic은 그냥 블랙박스임

기억이 나쁜 것일 수도 있지만, 토큰 사용량과 코드 품질 기준으로는 5.3이 최고였던 것 같음. 5.5가 더 잘 작동하긴 하지만 토큰을 완전히 갈아 먹음

나만 그런 게 아님. 5.3-codex는 출력 품질과 비용의 균형 면에서 훌륭한 모델이었다고 봄
5.5나 Opus와 달리 거의 모든 작업에 쓸 수 있을 만큼 싸고 효율적이면서도 꽤 좋았고, Sonnet보다 선호했음

몇 주 전에 5.3은 내 기준으로 못 쓸 상태가 됐음. 그냥 멈추거나 형편없는 답을 냈음

며칠 전에 OpenAI가 획기적인 최적화로 연산 비용을 절반으로 줄였다고 누가 여기서 말했던 것 같은데, 그게 이건가?

“OpenAI 엔지니어들이 이달 초 일부 동료들에게 새로 발견한 최적화 덕분에 기존 모델 실행, 즉 추론 비용을 절반 이상 줄이는 방법을 찾아냈다고 말했다”고, 그 논의를 아는 사람이 전했다는 내용이었음

그 소문은 OpenAI 자체가 아니라, 사태 이후 OpenAI에서 갈라져 나온 그룹 중 하나, 아마 Thinking Machines가 돌파구를 만들고 OpenAI에 제안 중이라는 얘기로 이해했음. OpenAI가 아직 실제로 구현한 건 아니라고 봄

나의 경우 암호화된 추론 내용을 base64 문자열 길이로 보면 이 효과가 나타남. 하지만 서버가 보고하는 추론 토큰에서는 나타나지 않음
그래서 순수하게 암호화나 난독화의 일부라고 생각했고, 실제 문제는 아니라고 봄
GPT의 가장 큰 단점은 사고 과정이 암호화되어 있어서 Kimi, GLM, DeepSeek보다 더 블랙박스라는 점임. 그래도 사고 요약은 받을 수 있으니 어색하지만 쓸 수는 있음

드물게 “모델을 멍청하게 만들었다”는 말이 평소의 사용자 망상이 아니라 실제로 모델을 멍청하게 만든 경우인가?

이건 오히려 추론 엔진이나 에이전트 실행 환경의 결함 또는 설정 오류처럼 보임
이슈 상세 내용은 의도적인 몰래 약화의 증거가 아니고, 오히려 반대에 가까움. 근본 원인이 조잡하고, 일반 사용자가 독립 검증 가능한 정확한 세부사항으로 보고할 만큼 딱히 은밀하지도 않음
“평소의 사용자 망상”이라는 표현은 공정하지도 취향에 맞지도 않음. 문맥 창을 삼켜 이어지는 출력을 뱉는 마법 싱크대 같은 API 엔드포인트만 갖고 있으면 남는 건 주관적 판단과 추측, 의심뿐임
표준화된 모델 테스트 스위트가 있어도, 몰래 약화라고 주장하는 건 결국 그 회사 사람들의 의도를 읽는 일임. 명시적 의도나 기반 인프라 다운그레이드 없이도 모델 품질은 떨어질 수 있음
농담 섞인 음모론이나 실제 약화 가능성을 검토하는 것 자체가 정신병은 아님. 심리 진단 용어를 이렇게 남용하는 흐름이 마음에 들지 않음
물론 이런 판단에 지나치게 확신하는 사람들도 있겠고, 그들에게는 해당될 수 있겠지만 그건 소수임. 결국 과장일 뿐이고, 누구에게도 도움이 되지 않음

프런티어 모델 구독을 팔아 놓고 시간이 지나면서 빠르게 너프하는데 아무도 얘기하지 않는다는 게 웃김
서버 측에서 조용히 추론 강도를 낮추면 할인이라도 해줘야 함
반면 나는 5.5-high를 매일 병렬 다중 작업 흐름에서 쓰고 있는데, 주간 한도를 간신히 다 쓰는 정도임. 계획과 구현을 전부 따라가 읽기엔 내가 Human-as-a-Service로 충분히 빠르지 못함. 그런 면도 있긴 함

처리량 최적화를 위해 추론 추론을 512 토큰 배수 단위로 묶어 배치 처리하는 게 분명해 보임

내 첫 생각은 llama.cpp를 기준으로 보면 추론 예산 매개변수 조정이 이런 결과를 낳았을 수 있다는 것이었음. 하지만 OpenAI 발표 없이는 정확히 알 방법이 없음
피크 시간대 수요에 맞춰 확장하는 매우 부정직한 방식일 수도 있음. 이 주제에서 이미 모델 성능 체감의 주관성을 비웃는 사람들이 있다는 건 알지만, 적어도 5월 한 달간 내 테스트에서는 미국이 온라인으로 들어오는 시간대에 모델이 덜 똑똑해 보였음
몇 주 전 회사 블로그 글에서도 겹치는 시간대에 더 일관된 패턴으로 체감돼서 이 점을 짚어야겠다고 느꼈음. 추가 분석을 위해 세션 로그를 저장해뒀어야 했음 https://webesque.agency/blog/2026-06-19-llms.html

표준은 연속 배치 처리를 쓰는 것 아닌가? 연속 배치 처리를 쓴다면 생성 토큰 길이가 왜 중요하고, 왜 길이별로 묶는지 궁금함. 아니라면 왜 안 쓰는지와 그 절충점이 궁금함

Insights

GPT-5.5 Codex의 추론 토큰 클러스터링이 성능 저하로 이어질 수 있음

요약

핵심 포인트

댓글

arXiv vs. 학술지: AI 개발자를 위한 속도와 진실 사이의 트레이드오프(Trade-off) 해독

누락된 MCP 카테고리: AI 에이전트를 위한 프라이빗 매칭 (Private Matching)

포르투갈, 유럽의 오픈 소스 AI 주권 전략인 Amália 9B 출시

TraceTree: 공급망 공격을 포착하기 위한 악성코드 동작 매핑

arXiv vs. 학술지: AI 개발자를 위한 속도와 진실 사이의 트레이드오프(Trade-off) 해독

누락된 MCP 카테고리: AI 에이전트를 위한 프라이빗 매칭 (Private Matching)

포르투갈, 유럽의 오픈 소스 AI 주권 전략인 Amália 9B 출시

TraceTree: 공급망 공격을 포착하기 위한 악성코드 동작 매핑