LLM은 정신이 나갔다!

ChatGPT, Claude, 또는 Gemini가 10개 전 메시지에서 말했던 내용을 잊어버려 답답했던 적이 있나요? 아니면 일반적인 단어를 무작위 이모지로 바꿔버리는 완전히 기괴한 환각 (Hallucination) 현상을 보고 웃었던 적이 있나요?

채팅 클라이언트에게 소리를 지르는 것은 쉽습니다. 하지만 내부에서 돌아가는 거대한 하드웨어 제약 조건이라는 회전하는 접시들에 대해 **기계적 공감 (Mechanical Sympathy)**을 유지하는 것은 훨씬 더 어렵습니다.

그래서 우리는 LLM이 실제로 어떻게 작동하는지(그리고 어떻게 실패하는지)를 가르쳐주기 위한 인터랙티브 게임을 만들었습니다:

🧩 LLM은 정신이 나갔다: 크로스워드 퍼즐

Link 임베딩 창 크기 조절 문제 때문에 저처럼 짜증이 나셨을 분들을 위해 남겨둡니다.

⚙️ 게임 작동 방식

이것은 표준적인 기술 중심의 9단어 크로스워드 퍼즐입니다. 승리하려면 핵심 머신러닝 (Machine Learning) 개념(예: WEIGHTS, TOKEN, ATTENTION, EPOCH)의 정의를 찾아 입력해야 합니다.

하지만 게임을 플레이하는 동안, 당신은 거대 언어 모델 (Large Language Model)의 실제 아키텍처 제약 조건 내부에서 직접 실행됩니다:

1. 💾 컨텍스트 창 (Context Window, $C_{\text{tokens}}$)

모델은 당신이 마지막으로 수정한 N개의 셀만 추적합니다. 만약 컨텍스트 크기보다 더 많은 글자를 입력하면, 가장 오래전에 입력한 글자들은 컨텍스트에서 벗어나 **유기적으로 부패 (Organically decaying)**하기 시작합니다. 모델이 이를 추적하지 못하게 됨에 따라, 글자들은 천천히 깜빡이며 시각적으로 유사한 문자로 변하거나 (또는 순수한 노이즈로) 돌연변이를 일으킵니다.

2. ⏰ KV-캐시 만료 (KV-Cache Expirations, $\tau$)

보드는 4개의 뚜렷한 사분면(Q1-Q4)으로 나뉩니다. 만약 한 사분면을 너무 오랫동안 건드리지 않으면 해당 캐시가 만료되며, 보드의 해당 섹션 전체가 즉시 빈칸으로 지워집니다! 캐시를 활성 상태로 유지하려면 사분면 사이를 계속 이동해야 합니다.

3. 🔥 온도 (Temperature, $T$)

돌연변이의 혼돈을 제어합니다:

낮은 온도 (Low Temp, $T \le 0.8$): 예측 가능한 방식으로 변합니다 (예: E가 3이 되거나, A가 4가 됨).
높은 온도 (High Temp, $T \ge 1.3$): 순수한 기호적 엔트로피 (이모지, 퍼센트 기호, 시스템 글리프 등)로 폭발합니다.

🛠️ 하드웨어 프리셋 선택

INITIATE RUN을 클릭하기 전에, 추론 엔드포인트 (inference endpoint) 난이도를 선택하세요:

🏢 Enterprise API (쉬움): 거대한 컨텍스트 윈도우 (context window, $C=64$), 90초 캐시 (cache), 매우 낮은 온도 (temperature). 매우 관대합니다.
💻 Local Llama (보통): 노트북에서 실행되는 양자화된 (Quantized) 7B 모델 ($C=32$), 45초 캐시, 표준 온도 ($0.7$). 성능 저하 (decay)를 피하려면 빠르게 움직여야 합니다.
🍞 Smart Toaster (어려움): 주방 가전에서의 엣지 추론 (Edge inference, $C=16$), 15초 캐시, 높은 온도 ($1.4$). 완전한 하드웨어 혼돈 상태입니다.

팁: 치트 시트 (cheatsheet)가 필요하다면, 🧠 VIEW WEIGHTS 버튼을 클릭하여 정답 데이터베이스를 덤프 (dump) 하세요. 하지만 주의하세요: 데이터베이스 쿼리 (query)가 키보드 입력을 잠가버리므로, 가중치 (weights)를 닫고, 컨텍스트를 전환한 뒤, 기억력에 의존해 정답을 떠올려야 합니다!

🏁 기계를 이기고 점수를 공유하세요

마지막 칸을 채우면, 시스템이 자동으로 RUN INFERENCE를 트리거하여 점수표를 확정합니다.

로컬 CPU (15 TPS) 또는 클라우드 API (150 TPS)를 이길 수 있을까요? 실행이 끝나면 COPY SCORE를 클릭하고 아래 댓글에 당신의 통계치를 붙여넣으세요!

(그리고 만약 가중치 덤프에서 정답을 한 번에 복사해서 붙여넣을 생각을 하고 있다면... 음, 컴파일러에는 프롬프트 인젝션 (prompt injection) 파이프라인 스캐너가 있습니다. 시도할 경우 발생하는 위험은 본인 책임입니다! 😉)

위의 게임을 플레이하고, GitHub의 UnitBuilds-CC/LLMs-are-Demented에서 소스 코드를 확인한 뒤, 여러분의 최고 점수를 알려주세요!

Insights

LLM은 정신이 나갔다!

요약

핵심 포인트