GPT 5.5 vs Fable/Mythos 5 다마고치 대결

음, 어떻게 시작해야 할까요, 우선 중요한 맥락이 좀 필요할 것 같습니다.

Chai:
https://preview.redd.it/egngyea5cf6h1.png?width=1080&format=png&auto=webp&s=9ade63fbc584b7fab28dba4914bc3fcb877f557f

Hasbullah / Hasbi:
https://preview.redd.it/dufpxbb6cf6h1.png?width=1080&format=png&auto=webp&s=5113f03cc948b2584cd6f2f22e80b747b7f31fd8e

함께하여, Chasbinder가 탄생했습니다. 음, 아마 이건 중요하지 않을 수도 있겠네요... 적어도 이제 여러분은 AI가 이걸 쓰지 않았다는 걸 알게 되셨을 겁니다... 제 생각에는요.

하지만, Codex GPT 5.5 xHigh를 통해 실행되는 저의 Openclaw Agent가 이 테스트를 가능하게 하는 데 도움을 주었다는 점을 언급하는 것이 중요합니다. 동일한 프롬프트(Prompt)가 OpenRouter를 통해 6개의 서로 다른 모델에 단 한 번의 샷(one shot)으로, 각각의 가장 높은 추론/사고(reasoning/think) 설정으로 제공되었습니다.

테스트는 간단했습니다. 저는 그저 제 에이전트인 Chasbi가 자신만의 멋진 인터랙티브(interactive) 홈페이지를 갖기를 원했고, 실제로 플레이 가능한 다마고치(Tamagotchi) 게임을 생각했습니다. 아래에서 프롬프트와 비용 분석을 확인하실 수 있습니다.

자, 여기 결과가 있습니다. 결과를 공개하기 전에 누가 무엇을 만들었을지 한번 맞춰보시겠어요? 맞혔는지 확인해 보세요. (GPT 5.5, Opus 4.8, Fable/Mythos 5, Gemini 3.5 Flash, Deepseek V4 Pro, Qwen 3.7 Max).

https://chasbi.uk/t1 = Gemini 3.5 Flash <- 클릭하여 확인
https://chasbi.uk/t2 = Qwen 3.7 Max <- 클릭하여 확인
https://chasbi.uk/t3 = Claude Opus 4.8 <- 클릭하여 확인
https://chasbi.uk/t4 = Claude Fable/Mythos 5 <- 클릭하여 확인
https://chasbi.uk/t5 = ChatGPT 5.5 <- 클릭하여 확인
https://chasbi.uk/t6 = Deepseek V4 Pro <- 클릭하여 확인

맞히셨나요? 음, 이들은 모두 OpenRouter API를 통해 사용 가능한 가장 높은 추론 설정으로 실행되었으며, 그 외의 모든 것은 기본값(default)이었습니다. 그리고 여기 각 제공업체별로 토큰(token)이 어떻게 토큰화(tokenised)되었는지와 각 비용에 대한 분석이 있습니다.

[IMG:N]
[IMG:N]

Fable/Mythos 5를 제외한 모든 테스트는 BST 기준 오전 8시경에 거의 동시에 진행되었습니다. Fable/Mythos 5는 (중요할 수도 있겠지만) 전날 BST 기준 오후 6시 50분에 진행했습니다. 우리가 미국보다 5~6시간 빠르기 때문에, 성능 측면에서 이것이 세상 모든 차이를 만들어낼 수도 있습니다.

저는 Codex Max 플랜을 사용 중이며 계속 유지해 왔습니다. 왜냐하면 GPT 5.5 xHigh가 저에게는 정말 놀라웠기 때문입니다. 지난주부터 OpenAI가 GPT 5.6 출시를 위해 리소스를 재할당하고 있는 것인지 무엇인지는 모르겠지만, 지금까지는 저에게 단 한 번도 실수를 한 적이 없었기에 이번 결과는 놀라웠습니다.

제 코드베이스(codebase)에서 Fable/Mythos 5를 정말 테스트해 보고 싶지만, 솔직히 이 바보 같은 1-shot 다마고치 테스트에 무려 2.47달러나 들었습니다! 그래서 현재 제가 실행 가능한 유일한 방법은 Claude Max 플랜을 사용하여 6월 22일에 종료되기 전까지 2주 동안 사용하는 것입니다.

어쨌든 여러분의 의견을 듣는 것도 흥미로울 것 같습니다. 누가 가장 잘했다고 생각하시나요...

다른 것을 테스트해 보길 원하신다면 알려주세요.

각 모델은 레인(lane) 이름과 대상 경로(target route)만 변경되었을 뿐, 동일한 프롬프트 템플릿(prompt template)과 동일한 작업/사양(task/spec)을 받았습니다.

예시:
{LANE} = T1/T2/T3/T5/T6
{ROUTE} = /t1 /t2 /t3 /t5 /t6
{LANE_LOWER} = t1, t2 등과 같은 출력 경로 레이블(output path label)

프롬프트(The Prompt):

chasbi.uk를 위한 모델-레인 벤치마크(model-lane benchmark)로서 Chasbinder Pet Lab {LANE}를 구축하세요.
대상 레인:

공개 경로(Public route): {ROUTE}/
제목에는 반드시 Chasbinder Pet Lab {LANE}가 포함되어야 합니다.
이 모델은 다른 새로운 레인들과 동일한 브리프(brief) 하에 경쟁합니다. 이것이 플레이스홀더(placeholder)이거나 이전 버전이라는 점을 언급하지 마세요.
컨텍스트(Context):
이것은 공개적으로 안전한 정적 브라우저 게임(static browser game)입니다. 개인정보/개인 데이터, 비밀, 실제 가족 상세 정보 또는 네트워크 호출을 포함하지 마세요.
과제는 데모, 랜딩 페이지(landing page) 또는 리스킨(reskin)이 아니라, 작고 완성도 있는 인디 느낌의 다마고치/펫-랩(pet-lab) 게임을 만드는 것입니다.
이는 Fable/Mythos 스타일의 V4 레인 및 SoRa/Codex T7 레인과 공정하게 비교할 수 있을 만큼 강력해야 합니다.
오직 하나의 완전한 HTML 문서만을 반환하세요. 마크다운이나 설명은 금지합니다.
엄격한 제약 조건:
단일 self-contained index.html.
HTML, CSS, vanilla JS(순수 자바스크립트)만 사용.
외부 폰트, 라이브러리, 이미지, 오디오, 트래킹 또는 네트워크 호출 금지.
모바일 우선(Mobile-first) 설계이되 데스크톱에서도 세련되게 보여야 함.
https://chasbi.uk{ROUTE}/ 하위의 정적 파일로 작동해야 함.
localStorage, 버전 관리된 저장 데이터, 손상 시 마이그레이션/리셋 기능 사용.
내보내기(export)/가져오기(import)/리셋 디버그 컨트롤 포함.
eval 사용 금지, 일반 게임 플레이 중 alert 사용 금지, 브라우저 권한 요청 금지.
전체 파일 크기를 합리적으로 작게 유지할 것; 가능하면 120KB 미만을 목표로 함.
모바일에서 컨트롤이 튀지 않도록 안정적인 레이아웃 치수 사용.
게임 방향:
핵심 판타지: Chasbinder는 따뜻한 터미널 정원(terminal-garden)에 사는 작은 디지털 수호자입니다. 세상은 "기억의 빛(memory lights)"을 잃어가고 있습니다; 플레이어는 Chasbinder를 키우고, 짧은 탐험(expedition)을 보내며, 방을 복구하고, 스토리 챕터를 해금합니다.
다마고치식 돌보기(care)를 중심에 두되, 실제 스토리 루프와 난이도를 추가합니다.
한 번에 5~10분 정도 플레이할 수 있어야 하며, 며칠에 걸쳐 진행될 수 있어야 합니다.
필수 시스템:
펫 능력치(Pet stats): 허기, 갈증, 에너지, 위생, 기분, 신뢰/유대감, 건강, 스트레스, 훈육, 호기심, 체중/체력, 질병 위험, 나이/단계, 수면/깨어남 상태, 성격, 학습된 선호도.
오프라인 진행(Offline progression): 경과된 실제 시간이 욕구, 이벤트, 스토리 타이머, 회복 및 탐험 귀환에 영향을 미침.
트레이드오프(tradeoffs)와 쿨다운(cooldowns)이 있는 행동: 먹이기, 마시기, 청소하기, 휴식/수면, 위로하기, 훈련하기, 놀기, 탐험/원정, 클리닉/약물, 제작/복구.
난이도 모드: 코지(Cosy), 표준(Standard), 서바이벌(Survival). 난이도에 따라 능력치 감소율, 보상, 이벤트 위험도, 스토리 압박이 달라짐. 새 게임 시작 시 플레이어가 선택할 수 있게 하고 현재 모드를 표시할 것.
스토리 진행:
이름이 지정된 여러 개의 챕터/방.
돌보기와 탐험 자원을 통해 스토리 조각(snippets)을 해금.
한 번의 세션 내에서 달성 가능한 "챕터 완료 (chapter complete)" 아크와 장기적인 목표를 제공할 것.
탐험/미니게임 (Expedition/minigame):
단순한 버튼 클릭이 아닌, 가벼운 상호작용 중심의 리스크/리워드 (risk/reward) 루프.
모바일에서 단순해야 함: 경로 선택, 에너지 소모, 이벤트에 대한 반응, 메모리 스파크 (memory sparks) 수집, 스트레스/질병 회피.
난이도가 중요하게 작용해야 함.
결과 (Consequences):
방치, 더러운 서식지, 탈수, 과식, 스팸 클릭, 수면 부족, 잘못된 탐험 선택은 질병, 부상, 짜증, 스트레스, 낮은 보상 등을 유발할 수 있음.
잘 돌봐주면 신뢰도, 스토리 결과, 탐험 성공률이 향상됨.
UI:
Canvas 또는 SVG 애니메이션을 활용한 반려동물/방 장면.
읽기 쉬운 바 (bar) 형태의 컴팩트한 능력치 표시.
돌보기 (Care), 모험 (Adventure), 스토리 (Story), 메모리 (Memory)를 위한 탭/세그먼트 컨트롤.
주요 이벤트 저널.
업적/배지.
명확한 쿨다운/비활성화 상태 표시.
좁은 휴대폰 화면에서 텍스트 넘침(overflow) 방지.
느낌 (Feel):
따뜻하고, 아늑하며, 세련되고, 장난기 넘치는 Chasbi/Chasbinder의 성격.
단조로운 진한 파란색/보라색 그라데이션의 과도한 사용 지양.
마케팅/랜딩 페이지 스타일의 구성을 피할 것. 첫 화면은 게임이어야 함.
품질 기준:
코드는 /root/Chasbi/web/public/{LANE_LOWER}/index.html로 직접 저장하여 사용할 수 있을 만큼 견고해야 함.
도움이 되는 부분에만 충분한 주석을 포함할 것.
시각적 및 기계적으로 살펴보는 재미가 있도록 만들 것.

/u/ikyz 제출 (r/OpenAI)
[link] [comments]

GPT 5.5 vs Fable/Mythos 5 다마고치 대결

요약

핵심 포인트

댓글