Jason Wei의 프레임워크에서 빠진 조각: 언제 On-Policy로 전환해야 하는가

"Chain-of-Thought의 아버지"인 Jason Wei가 OpenAI를 떠나 Meta로 향했습니다. 루머에 따르면 그의 계약 규모는 1억 달러부터 시작된다고 합니다.

이 뉴스가 알려지기 전, 그는 두 개의 블로그 포스트를 게시했습니다. 하나는 강화학습 (Reinforcement Learning, RL)에서 얻은 인생의 교훈에 관한 것이었고, 다른 하나는 검증의 비대칭성 (Asymmetry of Verification)에 관한 것이었습니다.

두 글 모두 통찰력이 넘칩니다. 하지만 두 글을 관통하는 질문에는 답하지 않습니다: 언제 모방 (Imitation)에서 On-Policy 탐색으로 전환해야 하는가?

여기 하나의 프레임워크가 있습니다.

두 가지 아이디어

아이디어 #1: 인생은 On-Policy RL이다

Jason Wei는 올해 RL을 발견하고 이에 매료되었습니다. 한 가지 개념이 머릿속에 남았습니다: 가능한 한 항상 On-Policy 상태를 유지하라.

Off-Policy: 타인의 궤적 (Trajectory)으로부터 학습하는 것. On-Policy: 환경과 상호작용하여 자신만의 데이터를 생성한 다음, 그로부터 학습하는 것.

모방 학습 (Imitation Learning)은 시작을 도와줍니다. 학교 교육은 모방입니다. 성공한 사람들을 연구하고 그들의 움직임을 복제하는 것 — 때로는 효과가 있습니다. 하지만 시간이 지나면서 깨닫게 됩니다: 모방은 결코 원본을 능가할 수 없습니다. 왜냐하면 모든 사람은 당신이 복제할 수 없는 고유한 강점과 상황을 가지고 있기 때문입니다.

그는 두 가지 개인적인 습관을 제시합니다:

요약본이 아닌 가공되지 않은 데이터 (Raw Data) 읽기. 며칠 동안 모든 데이터 포인트를 검토하며 각 어노테이터 (Annotator)에게 개인화된 피드백을 작성합니다. 데이터 품질은 급상승했고, 그는 누구도 갖지 못한 통찰력을 얻었습니다.
자신의 과거 결정에 대해 어블레이션 연구 (Ablation Studies) 수행하기. 한 달 동안 이전 연구에서 자신이 내렸던 모든 "임시방편적인 (Hacky)" 선택들을 격리하여 — 무엇이 실제로 효과가 있었는지 파악합니다.

공통된 구조: 중간 매개체를 건너뛰어라. 신호 (Signal)에 직접 닿아라.

아이디어 #2: 검증의 비대칭성

어떤 작업들은 해결하는 것보다 검증하는 것이 훨씬 더 쉽습니다.

스도쿠: 푸는 데는 영원히 걸리지만, 검증하는 데는 몇 초밖에 걸리지 않습니다.
웹사이트 구축: 팀은 몇 년을 소비하지만, 사용자는 몇 분 만에 검증합니다.
BrowseComp: 답을 찾기 위해 수백 개의 사이트를 탐색하지만, 검증하는 데는 순식간입니다.

그에 따른 필연적 결과 — 검증자의 법칙 (Verifier's Law): 측정 가능한 모든 것은 최적화될 수 있습니다. 강화학습 (RL) 환경에서, 검증할 수 있는 능력은 곧 훈련 환경을 구축할 수 있는 능력과 같습니다. 해결 가능하고 쉽게 검증할 수 있는 모든 작업은 결국 AI의 영역이 될 것입니다.

이는 "쉬운 작업이 먼저 해결된다"는 뜻이 아닙니다. 인간이 인지하는 난이도와 상관없이, 검증 비용 (verification cost)이 낮은 작업이 먼저 해결된다는 의미입니다. AI 역량의 경계는 작업의 중요도가 아니라 검증 비용을 따라갑니다.

지능은 불균등하게 발전할 것입니다. 검증 가능한 영역에서 AI는 지배적인 위치를 차지할 것입니다. 그 영역들이 더 쉬워서가 아니라, 더 길들이기 쉽기 (tameable) 때문입니다.

숨겨진 긴장 관계

이 두 가지 아이디어를 결합해 보십시오. 모순이 나타납니다.

검증자의 법칙은 수렴적 (convergent) 논리입니다. 좋은 검증 → 좋은 최적화 → 해결. 결정론적이며, 하위 호환성을 가지며, 경로가 명확합니다.

On-policy 방식의 삶은 발산적 (divergent) 논리입니다. 자신만의 길을 걷기 → 불확실성을 수용하기 → 미지의 보상을 추구하기. 개방적이고, 탐색적이며, 모방에 반대합니다.

하나는 "검증 가능한 모든 것은 정복될 수 있다"고 말합니다. 다른 하나는 "타인이 검증한 길만을 걷지 마라"고 말합니다.

이들이 모순될까요? 아닙니다. 이들은 동일한 사이클의 양면입니다.

검증자의 법칙은 **기존 공간에서의 최적화 (optimization in known space)**를 설명합니다. 이미 검증 가능한 표준이 있으니, 이제 한계까지 최적화하십시오.

On-policy는 **미지의 공간에서의 탐색 (exploration in unknown space)**을 설명합니다. 아직 표준이 존재하지 않습니다. 스스로 궤적 (trajectory)을 생성하고 무엇이 "좋은" 것인지 정의해야 합니다.

유일하고 실제적인 질문은 이것입니다: 언제 전환해야 하는가?

그가 답하지 않은 것

Jason Wei는 말합니다: "기반을 잡았을 때 (once you've found your footing) 전환하십시오."

이 문장에는 한 가지 정직한 부분과 한 가지 부정직한 부분이 있습니다. 정직한 부분은 시작 단계에서 모방 (imitation)이 실제로 효과가 있다는 점입니다. 그리고 부정직한 부분은 "기반을 잡았다"는 말에 운영 가능한 정의 (operational definition)가 없다는 점입니다.

그는 정의를 제공하지 않았습니다. 몰라서가 아니라, 모방이 더 이상 도움이 되지 않는 시점을 판단하는 능력 자체가 바로 On-policy 기술이기 때문입니다. 이는 타인의 궤적으로부터 배울 수 없습니다.

여기에 빠져 있던 프레임워크가 있습니다.

두 가지 전환 신호

신호 #1: 모방 대상(imitation source)이 답할 수 없는 질문을 던질 때.

모방 학습 (Imitation learning)은 S-커브를 따릅니다. 초기에는 급격한 이득을 얻지만, 중기에는 수익 체감 (diminishing returns)이 나타나고, 후기에는 거의 0에 수렴합니다. 즉, 당신의 소스(source) 또한 이 문제로 고군분투하고 있거나, 확립된 정답이 존재하지 않는다는 사실을 깨닫게 됩니다.

전환 신호는 "어떻게 하는지 모르겠다"가 아닙니다. 그것은 출발선일 뿐입니다.

전환 신호는 다음과 같습니다: "타인이 어떻게 하는지는 알지만, 그들의 방식이 틀렸거나, 불완전하거나, 혹은 내가 보고 있는 무언가에 대해 눈이 멀어 있다고 의심된다. 그리고 나는 나의 가설을 테스트하고 싶다."

Jason Wei가 로우 데이터 (raw data)를 읽은 것은 논문을 읽지 않아서가 아닙니다. 그는 학술적 글쓰기의 압축률 (compression ratio)이 신호 (signal)를 손실시키고 있다고 의심했기 때문에 읽었습니다. 그가 절제 연구 (ablation studies)를 수행한 것도 결론을 몰라서가 아니라, 그 결론이 자신의 환경에서도 유효한지 검증하고 싶었기 때문입니다.

공통적인 구조는 이렇습니다: 당신은 가설을 세웠고, 이를 검증할 유일한 방법은 직접 실행하는 것뿐입니다.

신호 #2: 60% 규칙.

"행동하기 전에 더 공부해야 한다"는 이유는 언제나 존재합니다. 이론은 언제나 더 깊어질 수 있고, 지식은 언제나 더 넓어질 수 있습니다. "진정으로 이해한 후에 행동하겠다"는 것은 무한 루프에 빠지는 일입니다.

규칙은 다음과 같습니다: 당신의 가설이 바보 같지 않다는 확신이 60% 정도 들 때 — 실행하십시오.

왜 60%일까요? 나머지 40%는 오직 온-폴리시 (on-policy) 피드백을 통해서만 얻을 수 있기 때문입니다. 모방 단계 (imitation phase) 안에서는 결코 100%의 확실성에 도달할 수 없습니다. Jason Wei는 불확실한 기대 가치 (expected value)를 안고 한 달 동안 절제 연구 (ablation studies)에 매달렸습니다. 그는 나중에 이렇게 인정했습니다: "상당한 시간이 걸렸지만, 누구도 가르쳐 줄 수 없는 것들을 얻었습니다."

시작하는 데 완벽함은 필요하지 않습니다. 시작하는 데 필요한 것은 실제 피드백입니다.

레퍼런스 카드 (Reference card)

단계	당신의 질문	행동
여전히 모방 중	"그들은 어떻게 하는가?"	계속 학습하라, 서두르지 마라
...

더 깊은 구조

이 두 가지 프레임워크를 종합하면 하나의 메타 사이클 (meta-cycle)이 드러납니다:

탐색 (on-policy) → 검증 (Verifier's Law가 이득을 고정) → 인지적 대역폭 (cognitive bandwidth) 확보 → 다시 탐색

이것은 A 다음에 B가 오는 선형적인 진행이 아닙니다. 이것은 역동적인 루프 (dynamical loop)입니다.

"ship → validate → fix P0s → fix → write paratext → format → finalize"의 모든 사이클은 동일한 패턴을 따릅니다: On-policy 실행, 그 뒤를 잇는 검증 기반의 수렴 (verification-based convergence), 그리고 다음 탐색을 위한 자유 대역폭 (freed bandwidth) 확보.

Jason Wei의 가장 가치 있는 — 그리고 명시되지 않은 — 통찰은 이것일지도 모릅니다:

언제 탐색하고 언제 수렴할 것인가에 대한 판단력 그 자체가 해자 (moat)이다.

그리고 그 판단력은 오직 On-policy를 통해서만 습득될 수 있습니다.

따라서 당신의 첫 번째 단계는 다음과 같습니다: 다른 누구도 쓰지 않았지만, 당신이 테스트할 가치가 있다고 믿는 가설 하나를 적으십시오.

100%를 기다리지 마세요.

60%면 충분합니다.

원문은 dev.to에 게시되었습니다.

시스템 사고 (systems thinking), 인식론 (epistemology), 그리고 머신러닝 (machine learning)의 교차점에 있는 AI 시대의 인지 프레임워크 (cognitive frameworks)를 더 확인하려면 팔로우하세요.

Jason Wei의 프레임워크에서 빠진 조각: 언제 On-Policy로 전환해야 하는가

요약

핵심 포인트

Jason Wei의 프레임워크에서 빠진 조각: 언제 On-Policy로 전환해야 하는가

두 가지 아이디어

숨겨진 긴장 관계

그가 답하지 않은 것

두 가지 전환 신호

레퍼런스 카드 (Reference card)

더 깊은 구조

댓글