본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 08. 22:07

Origin 파트 14: 재구성 (The Reframe)

요약

모델이 개념 간의 관계를 이해하는지 테스트하기 위해 문장 전이 예측 샌드박스를 구축하고 실험한 결과입니다. 소설 데이터(Project Gutenberg)를 활용한 실험에서 단순 빈도 예측 전략이 학습 모델보다 우세하게 나타나며, 데이터 기질(substrate)의 한계를 확인했습니다.

핵심 포인트

  • 개념 간 연결성을 측정하기 위한 문장 전이 예측 샌드박스 구축
  • 소설 데이터는 인과관계 학습을 위한 적절한 기질이 아님을 발견
  • 단순 빈도(frequency) 전략이 복잡한 학습 모델보다 높은 성능을 보임
  • 실패 원인이 알고리즘인지 데이터 기질인지에 대한 근본적 질문 제기

파트 12는 하나의 가설로 끝났습니다. 이틀 후, 그 가설은 데이터와 마주했습니다.

파트 12의 마지막 문장은 추측이었습니다. 어쩌면 다음 병목 현상 (bottleneck)은 더 많은 개념이 아니라, 개념들 사이의 관계일지도 모른다는 것이었습니다. 모델이 "개", "동물", "네 다리"를 알더라도 여전히 개가 무엇인지 이해하지 못할 수 있습니다. 이해는 노드 (nodes)가 아니라 연결 (connections) 속에 존재할지도 모릅니다.

우리에겐 그것을 테스트할 방법이 있었습니다. 현재 개념이 주어졌을 때 다음에 활성화될 개념을 예측하는 샌드박스 (sandbox)를 구축하는 것입니다. 이를 책에 적용해 봅니다. 만약 모델이 "돌이 떨어진다" 다음에 "땅에 부딪히고, 소리가 난다"가 이어지는 경향이 있다는 것을 예측할 수 있다면, 그것은 세상이 어떻게 연결되어 있는지에 대해 무언가를 배운 것입니다. 만약 예측하지 못한다면, 배우지 못한 것입니다.

나는 그날 저녁 그것을 만들었습니다. Project Gutenberg에서 가져온 다섯 권의 책. 25,000개의 문장 간 전이 (sentence-to-sentence transitions). 네 가지 예측 전략을 나란히 실행했습니다: 무작위 (random, 기준점), 빈도 (frequency, 항상 가장 흔한 개념을 예측), 공기 (cooccurrence, 어떤 개념이 어떤 개념을 따르는 경향이 있는지 학습), 그리고 검색 (retrieval, 유사한 과거 문장을 찾아 그 뒤에 무엇이 왔는지 확인).

결과는 내가 원하던 것이 아니었습니다.

공기 (Cooccurrence) 전략은 무작위 (random) 전략을 50배 이상 앞질렀습니다. 좋았습니다. 하지만 빈도 (frequency) 전략에는 패배했습니다. 나빴습니다.

단순한 사전 확률 (naive prior) — "매번 가장 흔한 8가지 개념을 예측하라" — 이 실제로 전이를 학습하려고 시도한 모델보다 더 나은 성능을 보였습니다. 이는 인과 관계에 대한 질문에서 평탄한 직선 (flat line)이 나온 것과 실험적으로 동일한 결과입니다. 파트 12에 적었던 가설은 정확히 잘못된 방향으로 떨어졌습니다.

나는 몇 시간 동안 그 결과와 함께 앉아 있었습니다. 결과가 나쁘게 나왔을 때 느끼는 유혹은 그 결과와 논쟁하는 것입니다. 예측 형태가 틀렸어. K 값 (K value)이 틀렸어. 손실 (loss)이 틀렸어. 더 절제된 방식은 데이터가 실제로 무엇을 말하고 있는지 묻는 것입니다.

그것이 실제로 말하고 있었던 것, 즉 책의 서사(narrative)는 인과관계 학습 (cause-and-effect learning)을 위한 잘못된 기질 (substrate)이라는 점입니다. 책은 표류합니다. 장면에서 장면으로, 캐릭터에서 캐릭터로, 묘사에서 묘사로 흘러갑니다. 소설에서 "다음에 무슨 일이 일어날까"는 대개 새로운 장소에 대한 이야기이지, 마지막 문장의 결과가 아닙니다. 우리가 채굴하려 했던 신호 (signal)는 채굴할 수 있는 곳에 없었습니다.

이는 명백한 질문을 던졌습니다. 실패의 원인이 알고리즘 (algorithm)에 있는 것인가, 아니면 기질 (substrate)에 있는 것인가? 만약 우리가 물리 교과서에 들어갈 법한, 수작업으로 선별된 (hand-curated) 깨끗한 인과관계 쌍 (cause-and-effect pairs)에 동일한 알고리즘을 실행한다면, 그것은 작동할 것인가?

다음 날 아침, 나는 여섯 개의 실험을 연달아 대기열에 올렸습니다. 샌드박스 테스트 (sandbox-test)의 날이라고 부르겠습니다.

첫 번째는 탐사 다양성 감사 (probe-diversity audit)였습니다. 이미 어휘 (vocabulary)에 포함된 200개의 개념을 가져옵니다. 동일한 아이디어를 다섯 가지 다른 표현 방식으로 각 개념을 탐사 (probe)합니다. 인코더 (encoder)가 다섯 가지 모두에서 동일한 개념을 활성화하는지, 아니면 표면적인 단어가 일치할 때만 활성화하는지를 확인합니다. 결과는, 탐사된 개념의 93%가 표현 방식에 관계없이 견고 (robust)했습니다. 아키텍처 (architecture)는 패턴 매칭 (pattern matching)을 하고 있는 것이 아니었습니다. 개념은 실재했습니다.

두 번째는 기질 테스트 (substrate test)였습니다. 나는 물리학, 생물학, 사회 역학 (social dynamics), 그리고 일상적인 사물에 걸쳐 150개의 수작업으로 선별된 인과관계 쌍을 작성했습니다. 순수하고 깨끗한 신호 (clean signal)였습니다. 그런 다음 그것들에 대해 동일한 네 가지 예측 전략 (prediction strategies)을 실행했습니다.

검색 (Retrieval)은 30%를 기록했습니다. 빈도 (Frequency)는 20%였습니다. 공기 (Cooccurrence)는 0%였습니다.

0%였습니다. 깨끗하게 선별된 데이터에서, 지난밤 실험의 중심이었던 예측 알고리즘 (prediction algorithm)은 무작위 선택 (random selection)조차 이기지 못했습니다.

그 순간 프레임 (framing)이 바뀌었습니다. 전날 밤, 나는 기질 (substrate)이 문제라고 스스로에게 말해왔습니다. 하지만 아침의 깨끗한 기질은 아니라고 말했습니다. 예측의 형태 (prediction shape) 자체가 잘못되어 있었습니다. 이 스택 (stack)에서 작동하고 있는 것이 무엇이든, 그것은 예측이 아니었습니다. 그것은 검색 (retrieval)이었습니다. 유사한 과거 사례를 찾아보고, 그것들이 했던 것을 반환하는 것. 그것은 작동했습니다. 학습된 전이 모델 (transition model)로부터 생성하는 것 — 그것은 작동하지 않았습니다.

이것이 사소하게 들릴 수도 있습니다. 하지만 그렇지 않습니다.

Part 12 이후의 암묵적인 계획은 관계 헤드 (relations head)를 구축하는 것이었습니다. 새로운 트리플 (triples, 예: X는 Y를 유발한다, X는 Y의 일부이다)을 제안하고 시스템이 그 위에서 추론할 수 있게 하는 모델의 일부를 만드는 것이었죠. 제가 스케치해 온 Discovery 2.0 설계의 핵심은 Origin이 스스로 관계적 지식 (relational knowledge)을 생성하도록 가르치는 것이었습니다.

하지만 그날 아침의 실험 결과는 하지 말라는 것이었습니다. 생성 (Generation)은 예측 (prediction)과 마찬가지로 잘못된 형태입니다. 새로운 사실을 제안하는 것은 무엇이든 그것을 지어내는 것 (making them up)과 한 끗 차이입니다. 우리가 원하는 것은 새로운 트리플을 만들어낼 수 있는 모델이 아닙니다. 실제 소스에서 저장된 실제 트리플을 검색 (retrieve)하고, 이를 사용하여 답변의 근거를 마련 (ground)할 수 있는 모델입니다.

하루가 끝날 무렵, 네 번의 추가 실험이 모두 같은 방향을 가리켰습니다. 간격 반복 (Spaced-repetition) 재학습은 7개 중 6개의 경계선에 있는 개념들을 끌어올렸습니다. 실제 is_a 체인으로부터의 멀티홉 상속 (Multi-hop inheritance)은 작동했지만, 하나의 개념이 두 가지 의미를 가지고 그 체인이 두 의미 사이를 가로지르는 곳에서는 깨졌습니다. 도메인 밀도 프로파일 (domain-density profile)은 수학과 감정은 희박하고 생물학과 물리학은 풍부하다는 것을 보여주었습니다. 즉, 기질 격차 (substrate gap)는 균일한 것이 아니라 도메인별로 특화되어 있었습니다.

그날의 결과로 Discovery 2.0은 완전히 다른 설계로 탈바꿈했습니다. 트리플 제안자 (triple proposer)가 아니라, 트리플 수집기 (triple ingester)가 된 것입니다. 외부 소스—ConceptNet, Wikidata, 소스가 부족한 곳은 수동으로 큐레이션된 데이터—로부터 실제 (주어, 관계, 목적어) 트리플을 가져오고, 다의성 (polysemy)에 대해 게이트를 거친 뒤, 추론 뱅크 (reasoning bank)에 기록하고, 컴포저 (composer) 시점에 검색합니다. 생성 (generation)이 아닌 데이터 엔지니어링 (Data engineering)입니다.

마지막 단어가 중요합니다. 생성은 발명합니다. 검색은 근거를 마련합니다. 처음부터 Origin의 전체 궤적은 근거를 갖춘 시스템 (grounded systems)이 앞으로 나아갈 길이라는 주장이었으며, 그날의 실험들은 이를 단순한 열망이 아닌 구조적인 문제로 만들었습니다. 모델은 스스로의 진실을 쓰지 않습니다. 우리가 인정한 진실을 찾아보고, 적용 가능한 것을 적용하며, 두 경로 모두 일치하는 것을 찾지 못하면 "모르겠습니다"라고 말합니다.

Part 12의 마지막 문장은 관계(relations)가 다음 병목 현상(bottleneck)이 될 것이라는 점에서는 옳았습니다. 하지만 해결책의 형태에 대해서는 틀렸습니다. 해결책은 관계 헤드(relations head)가 아닙니다. 해결책은 큐레이션된 관계적 기질(relational substrate)과 이를 통한 검색 경로(retrieval path)입니다.

다의성 게이팅(Polysemy gating)은 그날 바로 유보되었던 아이디어에서 필수적인 인프라로 격상되었습니다. 이것 없이는, 뱅크(bank)를 통한 검색은 "나무는 감자를 가지고 있다"라거나 "호스트는 빵이다"와 같은 결과를 만들어냅니다. 게이팅되지 않은 다의적 뱅크(polysemous bank) 위에서의 멀티홉 추론(Multi-hop reasoning)은 구조적으로 환각(hallucination)을 일으킵니다. 게이트(gate)를 먼저 구축하십시오. 그다음 기질(substrate)을 구축하십시오. 그다음 이 둘을 모두 사용하는 컴포저(composer)를 구축하십시오.

이 시리즈의 다음 포스트들은 이 세 가지를 해당 순서대로 구축하는 방법과 각각의 비용에 대해 다룰 것입니다.

한 명의 사람. 하나의 GPU. 애리조나에 있는 1,800달러짜리 컴퓨터 한 대. 여전히 구축 중입니다.

Origin은 NVIDIA Inception 멤버인 Fallen Angel Systems의 Genesis 프레임워크를 통해 개발되었습니다. (USPTO 출원 번호 #64/016,973, #64/017,567). FAS Guardian은 3ms 미만의 속도로 프롬프트 인젝션(prompt injection)으로부터 프로덕션 AI 시스템을 방어합니다. FAS Judgement는 격차를 찾아내는 오픈 소스 공격 콘솔(attack console)입니다. 방어. 공격. 창조.

fallenangelsystems.com | Judgement on GitHub | Guardian on GitHub

질문 또는 컨설팅 문의: josh@fallenangelsystems.com

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0