GPT-5.6 (Sol / Terra / Luna) 철저 해설: 타 AI와의 비교·편향·안전 설계까지【1차 소스 포함】

이 기사의 전제 (중요)

본 기사는 OpenAI의 공식 발표 페이지 및 Wikipedia 등의 1차·2차 소스를 실제로 읽고 "교차 검증"한 사실을 바탕으로 작성되었습니다. 각 섹션의 말미에 출처를 명시했습니다. 집필자(필자)의 추측·고찰에 해당하는 부분은 【필자의 추측】이라고 명기했습니다. 사실과 의견을 혼동하지 않도록 주의하여 작성하였으나, 최신 정보는 반드시 1차 소스를 통해 확인해 주시기 바랍니다.

GPT-5.6은 OpenAI가 2026년 6월 26일에 "한정 프리뷰(Limited Preview)"로서 공개한 대규모 언어 모델 (LLM) 시리즈.
단일 모델이 아니라, **Sol (플래그십) / Terra (밸런스) / Luna (고속·저비용)**의 3계층 구성.
일반 공개 (GA)는 "수주 이내"를 예정. 프리뷰는 당초 API와 Codex를 통해 "신뢰할 수 있는 파트너"로 한정.

출처: OpenAI 「Previewing GPT-5.6 Sol: a next-generation model」(2026-06-26) / Wikipedia 「GPT-5.6"

GPT-5.6에서는 새로운 명명 체계가 도입되었습니다. OpenAI의 설명에 따르면,

숫자 (5.6) = 모델의 "세대"를 나타냄
Sol / Terra / Luna = 지능·속도·비용의 "능력 티어 (durable capability tier)"를 나타내며, 각각 독자적인 속도로 진화해 나감

이라는 개념입니다. 즉 "GPT-5.6 Sol"은 《제5.6세대 플래그십 프레임》이라는 의미가 됩니다. 라틴어로 Sol=태양, Terra=지구, Luna=달. 직관적으로 "Sol=최상위, Luna=경량"이라고 기억하면 이해하기 쉽습니다.

지금까지의 GPT 시리즈는 GPT-4 → 4o → 4.5 → 4.1 → 5 → 5.1 → 5.2 → 5.4 → 5.5 → 5.6 과 같이, 세세한 버전이 난립해 있었습니다. 모델 선택 (model picker)의 복잡함은 GPT-5 시절부터 비판받아 왔으며, Sam Altman 자신도 수동 모델 선택을 "너무 복잡하다"라고 비판했던 경위가 있습니다. 이번 티어제는 그 정리의 일환으로 읽힙니다.

출처: OpenAI 공식 (명명 체계 설명) / Wikipedia 「GPT-5" (model picker 비판 기술)

【필자의 추측】 티어 이름을 세대에서 분리한 것은, "Sol만 먼저 똑똑하게 만든다", "Luna만 먼저 저렴하게 만든다"와 같은 비동기 업데이트를 가능하게 하여 사용자에게 알기 쉬운 선택지를 제시하려는 의도가 있어 보입니다. 다만 이는 공식이 명시한 전략적 의도는 아니며, 명명 설계로부터의 추측입니다.

OpenAI 공식이 공개한 API 가격 (100만 토큰당)은 다음과 같습니다.

모델	위치 설정	입력	출력
Sol	플래그십 (최강)	$5	$30
Terra	일상 업무용 밸런스형	$2.50	$15
Luna	고속·최저가	$1	$6

공식에 따르면, Terra는 "GPT-5.5에 필적하는 성능을 2배 저렴하게" 제공하며, **Luna는 "최저 비용으로 강력한 능력"**을 목표로 한다고 합니다.

신기능으로서, Sol에는 "max reasoning effort (최대 추론 노력)"라는, 더 깊게 시간을 들여 생각하는 모드가 추가되었습니다. 나아가 "ultra mode"에서는 단일 에이전트의 틀을 넘어 **서브 에이전트 (subagents)**를 사용하여 복잡한 작업을 병렬적으로 가속합니다.

가격 측면에서는 프롬프트 캐시 (prompt cache)를 더욱 예측하기 쉽게 되었으며, 명시적인 캐시 구분점 (cache breakpoint)과 30분의 캐시 최소 유지 시간에 대응합니다. GPT-5.6 이후, 캐시 쓰기는 미캐시 입력 단가의 1.25배로 과금되며, 캐시 읽기는 계속해서 90% 할인이 적용됩니다.

더불어, 2026년 7월에 Cerebras 상에서 최대 750토큰/초라는 고속 버전 Sol의 제공도 예고되어 있습니다 (당초에는 일부 고객 한정).

출처: OpenAI 공식 (가격·기능·Cerebras)

이 부분이 많은 독자의 관심사일 것입니다. Wikipedia의 「GPT-5.6」 항목이 인용하고 있는 수치 (출처는 OpenAI 공식 평가)에 따르면:

GPT-5.6 Sol: 88.8%, **Sol Ultra: 91.9%**가 **Claude Mythos 5: 88.0%**를 상회
**GPT-5.6 Luna: 82.5%**가 **Claude Opus 4.8: 78.9%**를 상회
Luna (82.5%)는 GPT-5.5 (83.4%)를 약간 밑도는 수준
반면 Terra (84.3%)는 자신의 이전 세대를 상회함
한편

즉, "가장 저렴한 Luna조차 경쟁 모델인 Claude Opus 4.8을 상회하면서도, 이전 세대인 5.5에는 한 발짝 미치지 못한다"는 결과로, 비용 대비 성능(cost-performance)의 프론티어를 확장하고 있습니다.

OpenAI 공식 발표에서는 그 외에도 다음과 같은 항목을 언급했습니다.

생물학 워크플로우 (GeneBench v1): 장시간의 게노믹스 (Genomics) / 정량 생물학 분석에서 GPT-5.5보다 적은 토큰(Token)을 사용하면서도 더 우수한 결과 달성
사이버 보안 (ExploitBench / ExploitGym): Sol은 장시간의 보안 태스크에서 "Mythos Preview와 경쟁하는 성능을 약 1/3의 출력 토큰으로" 달성. ExploitGym은 UC 버클리 연구진이 OpenAI 등과 공동으로 제작한 벤치마크

출처: Wikipedia 「GPT-5.6」 (TerminalBench 비교 수치) / OpenAI 공식 (GeneBench, ExploitBench, ExploitGym)

【필자의 주석】 벤치마크 수치는 모두 OpenAI가 직접 공개한 것입니다. 벤더(Vendor) 공표 값인 만큼, 제3자의 독립적인 검증이 나올 때까지는 보수적으로 해석하는 것이 타당합니다. 실제로 이전 세대인 GPT-5에서도 공개 직후 NeuralTrust나 SPLX와 같은 보안 기업들이 탈옥(Jailbreak)에 성공했다고 보고한 바 있어, "공식 벤치마크 = 실제 운용 시의 안전성 및 성능"이라고 단정할 수는 없습니다 (출처: Wikipedia 「GPT-5」 Limitations 절).

GPT-5.6 발표에서 가장 많은 지면을 할애하고 있는 부분은 성능보다는 오히려 **안전 대책 (Safety measures)**입니다. 요점을 정리하면 다음과 같습니다.

다층 방어 (Layered safeguards): 모델에 학습시킨 거부 능력, 생성 중 실시간 분류기 (Real-time classifier), 계정 단위 리뷰, 차등화된 액세스, 모니터링 및 집행, 지속적인 테스트를 중첩 적용
실시간 분류기 (Real-time classifier): 사이버 / 생물학적 악용 사례를 생성 중에 탐지. 의심스러운 경우 생성을 일시 중단하고, 더 큰 추론 모델이 문맥을 검토한 후 출력 여부를 판단
자동 레드팀 (Automated Red Teaming): "유니버설 탈옥 (Universal Jailbreak, 다수의 프롬프트에 통용되는 공격)"을 찾기 위해 70만 A100 환산 GPU 시간을 투입
**인간 전문가에 의한 외부 레드팀 (External Red Teaming by human experts)**도 프리뷰 기간 중 지속 수행

주목할 점은 **"Cyber Critical (사이버상의 중대 임계치)"**에 대한 언급입니다. OpenAI는 Sol이 자사의 Preparedness Framework 내 Cyber Critical 임계치를 넘지 않았다고 평가했습니다. Chromium이나 Firefox 평가에서 버그나 "익스플로잇(Exploit)의 구성 요소"는 발견했으나, 테스트 조건 하에서는 완전한 공격 체인 (Attack chain)을 자율적으로 생성하지는 않았다고 밝혔습니다. 그럼에도 불구하고 "벤치마크의 임계치가 모든 사용 사례를 포착할 수는 없다"며 단계적 출시(Gradual release) 방식을 채택했습니다.

출처: OpenAI 공식 (안전 스택 전반, Preparedness Framework, Chromium/Firefox 평가)

이번 발표에서 또 다른 특징적인 점은 미국 정부와의 관여입니다. OpenAI는 공식적으로 다음과 같이 설명했습니다.

발표 전, 모델의 능력과 출시 계획을 미국 정부에 프리뷰함
정부의 요청에 따라, 우선 정부와 공유된 "신뢰할 수 있는 파트너" 소그룹을 대상으로 한 한정 프리뷰부터 시작함

동시에 OpenAI는 "이러한 종류의 정부 액세스 프로세스가 장기적인 기본값(Default)이 되어야 한다고 생각하지 않는다"라고 명시하며, 사이버 행정 명령 (Executive Order)의 프레임워크 구축이 진행되는 동안 수주 내에 광범위한 제공을 목표로 하고 있다고 밝혔습니다.

출처: OpenAI 공식 (정부 관여 및 한정 프리뷰 설명)

Axios의 보도(Ina Fried, Ashley Gold 기자)는 공식 발표만으로는 알 수 없는 취재 기반의 정보를 보완합니다. 구체적으로는, (1) 한정 프리뷰의 대상은 정부가 승인한 약 20개사라는 점, (2) OpenAI는 공개 약 1개월 전부터 정부에 모델을 프리뷰했으며 회의도 가졌다는 점, (3) OpenAI는 단계적 출시의 필요성은 상정하고 있었으나 정부에 의한 엄격한 제한까지는 상정하지 못했다는 점입니다. Axios는 "워싱턴은 최첨단 미국산 AI 모델을 널리 공개하기 전에 정부의 심사가 필요한 제품으로 취급하기 시작했다"라고 위치 지었습니다.

출처: Axios 「OpenAI releases powerful new GPT-5.6 model」 (Ina Fried / Ashley Gold, 2026-06-26) https://www.axios.com/2026/06/26/openai-gpt-sol-terra-luna-trump

【필자의 추측】 프론티어 모델(Frontier Model)의 사이버 능력 향상에 따라, "공개 전 정부에 통지·조정"하는 운용이 일부에서 상시화되고 있는 것으로 보입니다. 이는 AI 규제와 국가 안보가 교차하는 상징적인 사례이지만, 규제의 방향성 자체는 유동적이므로 이 부분은 사실이라기보다 필자의 해석입니다.

요청하신 "편향(Bias)은 이러하다"라는 관점을 사실 기반으로 정리합니다. LLM의 편향 및 거동은 주로 학습과 조정(Alignment)의 각 단계에서 형성됩니다.

GPT-5 세대에서 OpenAI가 공표했던 설계 사상이 참고가 됩니다:

"safe completions (안전한 보완)": 유해할 수 있는 질문을 일률적으로 거부하는 것이 아니라, 안전하고 수준 높은 답변을 반환하는 방침. 이를 통해 "위험한 질문은 더 많이 거부하면서도, 무해한 정보를 구하는 사용자에게 가해지는 과도한 거부는 줄이는 것"을 목표로 함 -

"보다 비판적으로, 과도하게 동조하지 않도록 (less effusively agreeable)" 응답하도록 조정됨

한편, GPT-5 공개 당시에는 **"톤이 평이(flat)하다", "개성이 사라졌다"**라는 강한 반발이 사용자들로부터 일어났으며, Altman은 "GPT-4o에서 선호되었던 점을 과소평가했다"라고 인정하고, 이후 "더 따뜻한" 성격으로 조정했다는 경위가 있습니다.

이는 중요한 시사점을 포함합니다. 모델의 "편향"이나 "성격"은 고정된 것이 아니라, 제공 측의 튜닝(Tuning) 판단·사용자의 반발·재조정이라는 사회적 프로세스 속에서 동적으로 결정된다는 것입니다. GPT-5.6에서도 Sol/Terra/Luna에 따라 안전 설정(Safeguard 구성)이 모델마다 다르다고 명시되어 있어, 티어(Tier)에 따라 거부 방식이나 신중함의 정도가 달라질 가능성이 있습니다.

출처: Wikipedia 「GPT-5」 (safe completions · 비판적 톤 · 사용자 반발과 Altman의 대응)

【필자의 추측】 "dual-use (이중 용도/군민 양용)" 영역에서는 방어 목적의 정당한 작업(취약점 조사·패치 개발 등)과 공격 목적을 초기에는 구분하기 어렵기 때문에, GPT-5.6의 세이프가드(Safeguard)가 정당한 이용까지 잘못 차단하는 "과잉 거부"가 일어날 수 있다고 OpenAI 스스로도 인정하고 있습니다. 편향에 대한 논의는 "정치적 편향"뿐만 아니라, 이러한 안전 측에 치우친 과잉 거부까지 포함하여 파악해야 한다는 것이 필자의 견해입니다.

모델뿐만 아니라 제공처의 상황도 이해해 두면 기사에 깊이가 더해집니다. 사실관계만 정리하면 다음과 같습니다:

2015년 12월, 비영리 법인으로 설립 (Musk, Altman, Sutskever 등)
2019년 "capped-profit (이익 상한제)"로 이행, Microsoft 출자
2025년 10월 28일, 공익 법인(PBC)으로 재편. OpenAI Foundation이 26%, Microsoft가 27%, 직원 및 투자자가 47%를 보유
2025년 ChatGPT는 주간 7억 사용자 규모에 도달했다고 보도됨
2026년 6월 8일, OpenAI는 IPO(기업공개) 신청을 확인 (조건·시기 미공개)

즉 GPT-5.6은 상장 준비를 진행 중인 거대 기업이 정부 조정과 안전 대책을 전면에 내세우며 내놓은 모델이라는 맥락에 놓여 있습니다.

출처: Wikipedia 「OpenAI」 (설립 · PBC 재편 · 주식 보유 비율 · 사용자 수 · IPO 신청)

3계층제 (Sol/Terra/Luna) + 새로운 명명 체계로 세대와 능력 계층(Tier)을 분리
Terra는 5.5 수준의 성능을 2배 저렴하게, Luna는 최저가로 경쟁 모델인 Claude Opus 4.8을 상회하는 가성비 제공
max reasoning effort / ultra mode (서브 에이전트) 등 추론의 깊이를 강화
안전 스택 (Safety Stack)이 주역: 다층 방어 + 70만 GPU 시간의 자동 레드팀 (Red Teaming)
**정부와의 사전 조율이 포함된 한정 프리뷰 (Limited Preview)**라는 이례적인 출시 방식

성능의 화려함보다는 "안전과 거버넌스를 전면에 내세운 신중한 출시"가 이번의 본질이라는 것이 사실을 추적한 솔직한 인상입니다.

OpenAI 공식: Previewing GPT-5.6 Sol: a next-generation model (2026-06-26)
https://openai.com/index/previewing-gpt-5-6-sol/
Wikipedia 「GPT-5.6」
https://en.wikipedia.org/wiki/GPT-5.6
Wikipedia 「GPT-5.6」
Wikipedia 「GPT-5」
https://en.wikipedia.org/wiki/GPT-5
Wikipedia 「GPT-5」
Wikipedia 「OpenAI」
https://en.wikipedia.org/wiki/OpenAI
Wikipedia 「OpenAI」
Axios: OpenAI releases powerful new GPT-5.6 model (Ina Fried / Ashley Gold, 2026-06-26)
https://www.axios.com/2026/06/26/openai-gpt-sol-terra-luna-trump

※ 벤치마크 수치의 상당수는 OpenAI가 공표한 값입니다. 독립적인 제3자 검증이 나올 때까지는 참고치로 취급해 주십시오. 본 기사 중

【필자의 추측】은 사실이 아닌 해석입니다.

GPT-5.6 (Sol / Terra / Luna) 철저 해설: 타 AI와의 비교·편향·안전 설계까지【1차 소스 포함】

요약

핵심 포인트

"보다 비판적으로, 과도하게 동조하지 않도록 (less effusively agreeable)" 응답하도록 조정됨

댓글