왜 지식만으로는 판단력을 만들 수 없는가

Karpathy의 LLM Wiki는 훌륭합니다. 원시 자료(raw material)를 쏟아부으면, LLM이 개념을 추출하고 이들을 서로 연결하여 실제로 작동하는 개인 지식 베이스를 만들어줍니다.

저도 하나를 만들었습니다. 100페이지가 넘죠. 아주 좋습니다.

하지만 모든 것을 다시 생각하게 만든 벽에 부딪혔습니다.

벽

저는 AI에게 프로그래밍 튜터(tutor) 역할을 해달라고 요청했습니다. AI는 모든 개념을 완벽하게 암송할 수 있었습니다.

학생: "Promise가 이해가 안 돼요."

AI: "Promise는 비동기 작업(asynchronous operation)의 최종적인 완료 또는 실패를 나타내는 객체입니다..."

틀린 답변입니다. 정답은 다음과 같아야 했습니다: "먼저 콜백(callback)을 이해하고 있나요? 동기 실행(synchronous execution)은 어떤가요? 지금까지 무엇을 시도해 보았나요?"

AI는 지식을 가지고 있었습니다. 하지만 판단력(judgment)은 전혀 없었습니다.

그리고 저는 그 이유를 깨달았습니다: 제 위키의 모든 페이지가 동일한 유형의 지식이었다는 점입니다.

한 가지 유형 vs 네 가지 유형

LLM Wiki 1.0은 선언적 지식(declarative knowledge) — 즉 사실, 정의, 요약 등을 저장합니다. "이것이 무엇인가?"라는 질문에 답하는 것들 말이죠.

하지만 인간 전문가가 교과서와 어떻게 다른지 생각해 보십시오.

훌륭한 프로그래밍 멘토는 단순히 Promise가 무엇인지 아는 것에 그치지 않습니다. 그들은 왜 callback → Promise → async/await 순서로 가르쳐야 하는지, 그리고 왜 그 반대는 안 되는지를 압니다. 그것은 사실이 아닙니다. 그것은 추론 경로(reasoning path)입니다.

숙련된 점성가(astrologer)는 단순히 각 별이 무엇을 상징하는지만 아는 것이 아닙니다. 그들은 왜 명궁(命宮)을 먼저 확인하고, 그다음 삼방사정(三方四正)을 보는지, 언제 격국(格局)을 우선시해야 하는지, 언제 궁(palace)이 원인이 아닌 결과가 되는지를 압니다. 이것 역시 사실이 아닙니다. 그것은 의사결정 시퀀스(decision sequence)입니다.

그리고 여기서 핵심은 다음과 같습니다: 추론 경로를 아는 것만으로는 충분하지 않다는 것입니다.

우리는 Anderson(1972)의 소크라테스식 튜터링 대화(Socratic tutoring dialogues) — 모든 결정 지점에 라벨을 붙인 41회 및 30회 대화 전체 — 를 주석 처리했습니다. 23가지 소크라테스 규칙(추론 경로)을 아는 것과, 완전한 대화를 읽는 것 — 전문가가 함정을 설치하고, 15초 동안 침묵하며 기다리고, 학생이 좌절할 때 자신의 규칙을 깨는 것을 지켜보는 것 — 은 완전히 다른 차원의 문제입니다.

레시피를 아는 것 ≠ 요리사가 요리하는 것을 직접 본 것

그리고 한 가지 유형이 더 남아 있습니다.

학생이 말합니다: "요즘 의욕이 없어요."

지식 기반의 응답: "의욕 저하의 상위 5가지 원인은 다음과 같습니다..."
전문가의 응답: "이런 현상을 처음 느꼈던 게 언제였나요?"

전문가는 답을 하고 있는 것이 아닙니다. 그들은 진단(diagnosing)을 하고 있습니다. 그들은 '의욕 없음'이 표면적인 증상이라는 것을 알고 있습니다. 진짜 문제는 번아웃 (burnout), 불분명한 목표, 특정 실패, 혹은 다른 무언가일 수 있습니다. 무엇인지 알기 전까지는 그 어떤 조언도 추측에 불과합니다.

이것이 네 가지 뚜렷한 지식 유형입니다:

선언적 지식 (Declarative) — 무엇이 사실인가 (사실, 개념, 정의)
절차적 지식 (Procedural) — 어떻게 추론하는가 (전문가의 의사결정 순서, 왜 Y 전에 X를 해야 하는가)
경험적 지식 (Experiential) — 실제로 어떻게 수행하는가 (실수가 드러나는 완전한 풀이 과정 예시)
상호작용 지식 (Interaction) — 어떻게 가이드하는가 (다음에 무엇을 물어야 하는가, 언제 말하고 언제 기다려야 하는가)

LLM Wiki 1.0은 유형 1만을 저장합니다.

증거는 냉혹합니다

WashU 연구진은 98개의 실제 컴퓨터 과학 (CS) 조교 (TA) 세션을 분석했습니다 — 17시간, 8,203개의 발화.

소크라테스식 질문법 (Socratic questioning, 유도된 추론, 진단적 탐색): 0.6%.
조교가 직접 정답을 알려주는 경우: 75%.

이 조교들은 방법론을 알고 있었습니다. 교육도 받았습니다. 하지만 시간 압박 속에서, 그들은 결국 정답을 알려주는 방식으로 회귀했습니다.

규칙을 아는 것 ≠ 규칙을 실행할 수 있는 것.

아는 것과 실행하는 것 사이의 그 간극 — 바로 그곳에 절차적, 경험적, 그리고 상호작용 지식이 존재합니다. 만약 이러한 유형들을 저장하지 않는다면, 그것들을 훈련할 수 없습니다. 훈련할 수 없다면, 압박 속에서 실행할 수 없습니다.

누락된 연산

Karpathy의 프레임워크에는 하나의 연산이 있습니다: 섭취 (ingest) — 원시 자료에서 사실을 추출하는 것.

이것은 선언적 지식을 아름답게 만들어냅니다. 하지만 사실을 찾는 것만으로는 추론 경로, 풀이 과정 예시, 또는 가이드 전략을 얻을 수 없습니다. 여러분은 의사결정 (decisions) 을 찾아야 합니다 — 전문가는 무엇을, 언제 선택했는가, 그리고 그 뒤에 무엇이 따랐는가?

우리는 두 번째 연산을 추가했습니다: 채굴 (mine).

ingest는 사실을 찾습니다 → 선언적 지식 (Declarative Knowledge)
mine은 결정을 찾습니다 → 절차적, 경험적, 상호작용 지식 (Procedural, Experiential, Interaction Knowledge)

동일한 원재료입니다. 하지만 추출 대상은 완전히 다릅니다.

실제 적용 사례

2주 동안 우리는 다섯 가지 교육 사례 연구를 채굴(mine)했습니다:

추출된 절차적 프레임워크 (Procedural frameworks):

Anderson의 23가지 소크라테스 규칙 (Socratic Rules) — 6개 그룹의 완전한 튜터링 사이클
1분 사전 교수법 (One-Minute Preceptor) — 임상 의학의 "가르치기 전에 진단하라"는 프레임워크
소크라테스식 디버깅 7단계 (Socratic Debugging 7 Steps) — "키보드에 손을 대지 말고, 인지 부조화(cognitive dissonance)로 유도하라"

주석이 달린 경험적 사례 (요약이 아닌 결정 지점 수준):

41회차 과학적 추론 대화 — 함정 설계, "틀렸다고 말하지 마라"
30회차 도덕적 추론 대화 — 반례 전략 (counter-example strategy), 돌파구의 순간
1시간 분량의 CMU 수학 튜터링 — "독자에게 말하기 (Tell Your Reader)" 은유, 점진적 교정
WashU 98회차 부정적 사례 — 실무에서 소크라테스식 방법론이 실패하는 이유
MathDial 3,000개 대화 분류 체계 — Focus (집중) / Probe (탐색) / Tell (전달) / Generic (일반) 결정 모델

상호작용 패턴 (도출됨):

하나의 결정 트리: 학생이 막혔을 때 → 문제를 좁힘 (Focus). 답변은 했으나 추론이 불분명할 때 → 이해를 심화함 (Probe). Focus + Probe 사이클이 두 번 실패했을 때 → 정답이 아닌 전략적 힌트를 제공함 (Tell).

이것은 단지 교육에 관한 것이 아닙니다

이 네 가지 유형의 구분은 전문성이 존재하는 모든 곳에 적용됩니다:

의학적 진단: 질병의 정의 → 진단 추론 순서 → 그랜드 라운드 (grand rounds) 발표 → 레지던트를 지도하는 방법
철학 멘토링: 하이데거(Heidegger)가 말한 것 → 대신 스토아 학파를 언급해야 할 시점 → 전체 대화 녹취록 → 침묵을 지켜야 할 때
성장 코칭: 동기 부여 이론 → 탐색(probe)할 것인가 재구성(reframe)할 것인가의 시점 → 전체 세션 녹취록 → "이것을 처음 인지한 것이 언제였나요?"

모든 영역에서 전문가는 이 네 가지 유형을 모두 가지고 있습니다. 지식 베이스(Knowledge bases)는 오직 첫 번째 유형만을 포착할 뿐입니다.

핵심 요점

다음 세대의 AI는 더 거대한 지식 베이스 (Knowledge bases)에 의해 정의되지 않을 것입니다.

그것은 더 나은 추론 (Reasoning), 더 나은 교수 (Teaching), 그리고 더 나은 판단 (Judgment)에 의해 정의될 것입니다.

이러한 요소들은 더 많은 선언적 지식 (Declarative knowledge)에서 오는 것이 아닙니다. 지식을 다르게 조직화하는 것에서 옵니다.

판단 (Judgment)은 지식의 문제가 아닙니다. 그것은 지식 유형 (Knowledge-type)의 문제입니다.

@karpathy의 LLM Wiki 기초를 바탕으로 작성되었습니다. 두 번째 연산으로서의 "채굴 (mine)"이라는 개념이 여기서 새로운 부분입니다. "섭취 (ingest)"가 사실을 추출한다면, "채굴 (mine)"은 결정을 추출합니다. 만약 당신이 AI 튜터, 지식 시스템, 또는 판단이 필요한 그 어떤 것이라도 구축하고 있다면, 이 네 가지 유형의 체크리스트가 당신의 시간을 몇 달은 아껴줄 수 있을 것입니다.

Karpathy의 LLM Wiki를 위한 네 가지 유형의 프레임워크

요약

핵심 포인트