우리는 몇 달 동안 스스로 개선되는 AI 시스템을 구축했습니다. 실제로 일어난 일은 다음과 같습니다.

오늘날 대부분의 AI 시스템은 근본적으로 정적(static)입니다.

한 번 훈련하고.
한 번 배포하며.
서서히 구식이 되어갑니다.

AI의 지배적인 패러다임은 여전히 고정된 지능(frozen intelligence)을 기반으로 합니다:
거대한 말뭉치(corpus)로 모델을 훈련하고, 가중치(weights)를 고정한 다음, 몇 달 후 주기적으로 처음부터 다시 재훈련하는 방식입니다.

우리는 이러한 아키텍처(architecture)가 결국 막다른 길에 다다를 것이라고 생각합니다.

지난 몇 달 동안, 우리는 PROMETHEUS라고 불리는 실험적인 시스템을 구축해 왔습니다. 이는 정적 배포가 아닌 지속적인 학습 루프(continuous learning loops)를 중심으로 설계된 스스로 개선되는 AI 인프라(infrastructure)입니다.

이 글은 우리가 무엇을 구축했는지, 무엇이 작동했는지, 무엇이 실패했는지, 그리고 무엇이 우리를 가장 놀라게 했는지를 기록합니다.

벤치마크 마케팅 게시물이 아닙니다.
"우리가 AGI를 만들었다"는 이야기도 아닙니다.
그저 실제 엔지니어링(engineering)과 실험 결과일 뿐입니다.

핵심 논제

원래의 논제는 간단했습니다:

AI 시스템이 제한된 자율 학습 주기(bounded autonomous learning cycles)를 통해 시간이 지남에 따라 안전하게 스스로를 개선할 수 있는가?

재귀적으로 폭발(recursively explode)하지 않으면서.
하룻밤 사이에 초지능(superintelligent)이 되지 않으면서.

그저 반복적인 자기 주도적 적응(iterative self-directed adaptation)을 통해 측정 가능한 수준으로 개선되는 것.

우리는 지속적인 학습 인프라(continuous learning infrastructure)가 그 과정에서 모델 품질을 파괴하지 않으면서도 실제적인 능력 향상을 만들어낼 수 있는지 테스트하고 싶었습니다.

그 차이가 중요합니다.

왜냐하면 스스로 개선되는 AI에 관한 대부분의 논의는 즉시 공상 과학(science fiction)으로 뛰어들기 때문입니다.

우리는 이를 엔지니어링 문제(engineering problem)로 접근했습니다.

우리가 구축한 아키텍처

PROMETHEUS는 다음과 같은 요소들을 중심으로 구축된 다중 구성 요소 적응형 학습 시스템(multi-component adaptive learning system)으로 구조화되어 있습니다:

자율적 자기 개선 루프 (autonomous self-improvement loops)
호기심 기반 학습 할당 (curiosity-driven learning allocation)
헌법적 평가 시스템 (constitutional evaluation systems)
세계 모델 메모리 (world-model memory)
교차 아키텍처 증류 (cross-architecture distillation)

우리의 개발 규모 모델은 AWS 인프라에서 커스텀 Mamba-2 기반 아키텍처를 사용하여 대략 다음과 같은 규모로 훈련되었습니다:

약 3B 파라미터 (parameters)
약 30B 훈련 토큰 (training tokens)

개발 시스템의 목적은 최첨단 벤치마크(frontier benchmark)를 점령하는 것이 아니었습니다.

그것은 실험적 검증(experimental validation)이었습니다.

우리는 루프(loop) 자체가 작동하는지 알고 싶었습니다.

첫 번째 주요 실패

우리의 초기 자기 개선 (self-improvement) 실험은 처음에는 실제로 유망해 보였습니다.

능력 지표 (capability metrics)는 향상되었습니다.

하지만 동시에 다른 일이 발생했습니다:

전반적인 모델 품질이 저하되었습니다.

시스템은 공격적으로 학습하고 있었지만, 그 과정에서 스스로를 불안정하게 만들고 있었습니다.

이것은 결국 프로젝트 전체에서 가장 중요한 순간 중 하나가 되었습니다.

왜냐하면 이는 자율 AI (autonomous AI) 시스템을 논의하는 많은 사람들이 무시하는 경향이 있는 현실을 직시하게 만들었기 때문입니다:

개선 메커니즘 (improvement mechanisms)은 쉽게 파괴적인 최적화 루프 (destructive optimization loops)가 될 수 있습니다.

강력한 안정화 메커니즘 (stabilization mechanisms) 없이 지속적으로 스스로를 업데이트하는 모델은 결국 표류하게 됩니다.

우리의 경우:

정확도 (accuracy)는 향상되었으나,
일반적인 품질 지표 (general quality metrics)는 퇴보했습니다.

루프는 작동하고 있었습니다.
하지만 안전하지 않았습니다.

돌파구

더 강하게 스케일링 (scaling)하는 대신, 우리는 적응 체제 (adaptation regime) 자체를 재설계했습니다.

우리는 다음을 도입했습니다:

더 낮은 학습률 (lower learning rates)
더 강력한 앵커링 (stronger anchoring)
제한된 적응 주기 (bounded adaptation cycles)
헌법적 평가 게이팅 (constitutional evaluation gating)
롤백 로직 (rollback logic)

결과는 극적으로 달랐습니다.

우리는 다음을 달성했습니다:

측정 가능한 능력 향상
품질 저하를 1% 미만으로 유지하면서

이것은 안전하게 제한된 자기 개선 (safe bounded self-improvement)이 실제로 실행 가능할 수도 있다는 첫 번째 실제 신호가 되었습니다.

더 중요한 것은:

보수적인 설정 (conservative configuration)이 공격적인 설정보다 더 나은 성능을 보였다는 점입니다.

그것은 직관에 반하는 결과였습니다.

대부분의 사람들은 본능적으로 더 강력한 적응이 더 나은 시스템을 만들어낸다고 가정합니다.

실제로, 제약된 적응 (constrained adaptation)이 훨씬 더 안정적이고 효과적인 것으로 나타났습니다.

가장 중요했던 부정적인 결과

PROMETHEUS의 핵심 아이디어 중 하나는 호기심 기반 학습 할당 (curiosity-driven learning allocation)이었습니다.

이론은 시스템이 취약하거나 불확실한 영역을 식별하고, 무작위 할당보다 그곳에서 더 효과적으로 학습을 우선시할 수 있다는 것이었습니다.

그래서 우리는 다음을 비교하는 통제된 실험을 수행했습니다:

호기심 타겟팅 할당 (curiosity-targeted allocation)
균등 무작위 할당 (uniform random allocation)
적응 제어 없음 (no adaptation controls)

그 결과는 우리를 놀라게 했습니다.

우리의 개발 규모에서 호기심 타겟팅 (Curiosity targeting)은 균등 무작위 할당 (uniform random allocation)보다 겨우 조금 더 나은 성능을 보였을 뿐입니다.

시스템은 전반적으로 개선되었습니다.
하지만 호기심 선택 메커니즘 (curiosity selection mechanism) 자체는 측정 가능한 이점을 거의 제공하지 못했습니다.

처음에는 이것이 실망스럽게 느껴졌습니다.

나중에 우리는 이것이 사실 매우 가치 있는 결과라는 것을 깨달았습니다.

부정적인 실험 결과 또한 여전히 진전입니다.

특히 과장된 홍보가 정직한 보고를 압도하는 경우가 많은 AI 인프라 (AI infrastructure) 분야에서는 더욱 그렇습니다.

가장 흥미로운 발견: 유계 수렴 (Bounded Convergence)

그 후 우리는 훨씬 더 중요한 것을 테스트했습니다:

자기 개선 루프 (self-improvement loop)가 무한히 복리로 계속될 것인가?

답은 '아니오'였습니다.

개선 곡선은 적응 주기 (adaptation cycle) 4~5회 근처에서 자연스럽게 정점에 도달한 후, 붕괴하는 대신 진동 (oscillation) 상태로 안정화되었습니다.

그 결과는 우리가 시스템 전체를 생각하는 방식을 바꾸어 놓았습니다.

우리는 지속적 학습 (continuous learning)을 다음과 같이 보는 것을 중단했습니다:
“무한 재귀적 개선 (infinite recursive improvement)”

그리고 다음과 같이 보기 시작했습니다:
“유계 적응 수렴 (bounded adaptive convergence)”

아이러니하게도, 그것이 더 현실적이고 과학적으로 방어 가능한 결과일지도 모릅니다.

시스템은 영원히 상승 나선형으로 올라가지 않았습니다.
하지만 붕괴하지도 않았습니다.

수렴했습니다.

그리고 작동 범위 (operating envelope)를 이해하는 것이 무한 복리 서사를 쫓는 것보다 더 가치 있는 일이 되었습니다.

헌법적 평가 (Constitutional Evaluation)가 핵심 요구 사항이 되다

한 가지 교훈이 매우 빠르게 분명해졌습니다:

평가 제어 (evaluation controls)가 없는 자기 개선 시스템은 위험한 인프라가 됩니다.

그래서 우리는 루프 자체에 직접 헌법적 평가 시스템을 구축했습니다.

여기에는 다음이 포함되었습니다:

고정된 프로브 세트 (fixed probe suites)
드리프트 탐지 (drift detection)
섀도우 평가자 (shadow evaluators)
자동 거부 게이팅 (automated rejection gating)

모든 후보 업데이트는 라이브 적응 체인 (live adaptation chain)에 수용되기 전에 반드시 평가를 통과해야 했습니다.

이것은 우리가 AI 정렬 (AI alignment)을 생각하는 방식을 근본적으로 바꾸어 놓았습니다.

진정한 과제는 정적인 정렬 (static alignment)이 아닐지도 모릅니다.

지속적인 적응 (continuous adaptation) 하에서 정렬을 유지하는 것일지도 모릅니다.

이것들은 매우 다른 엔지니어링 문제입니다.

증류 (Distillation)는 예상보다 어려웠습니다

우리는 또한 하이브리드 추론 시스템 (hybrid reasoning systems)과 순수 Mamba-2 SSM 아키텍처 간의 교차 아키텍처 트레이스 증류 (cross-architecture trace distillation)를 탐구했습니다.

내부적으로는 은닉 상태 매핑 (hidden-state mapping)이 매우 잘 수렴되었습니다.

하지만 개발 규모 (development scale)에서 측정 가능한 다운스트림 능력 전이 (downstream capability transfer)는 결정적이지 않은 상태로 남아 있었습니다.

또 다른 중요한 교훈:

내부 표현 정렬 (internal representation alignment)이 자동으로 능력 향상으로 이어지지는 않습니다.

다시 말씀드리지만:
정직한 부정적 결과 (negative result)입니다.

우리가 배운 것

AI 인프라에서 가장 어려운 부분은 단순히 더 큰 모델을 훈련하는 것이 아닙니다.

그것은 다음과 같은 능력을 갖춘 시스템을 구축하는 것입니다:

안전하게 적응하고,
스스로를 올바르게 평가하며,
자신이 무엇을 모르는지 알고,
불안정해지지 않으면서 개선되는 것.

이것은 순수한 스케일링 (scaling)보다 훨씬 더 깊은 시스템 문제임이 드러났습니다.

우리가 생각하는 향후 방향

우리는 아직 초기 단계에 있습니다.

이 중 많은 부분은 여전히 해결되지 않은 상태로 남아 있습니다.

하지만 우리는 AI의 미래가 정적인 모델 (static models)보다는 제한된 평가 체제 (bounded evaluation regimes) 하에서 지속적인 학습이 가능한 적응형 시스템 (adaptive systems)에 더 가깝다고 점점 더 확신하고 있습니다.

무한한 자율적 재귀 (autonomous recursion)가 아닙니다.

통제 불능의 지능 신화도 아닙니다.

그것은 다음과 같은 시스템입니다:

지속적으로 학습하고,
안전하게 업데이트하며,
시간이 지나도 메모리를 유지하고,
파괴적 드리프트 (catastrophic drift) 없이 진화하는 시스템.

그것이 바로 우리가 PROMETHEUS를 통해 구축하려고 노력하는 것입니다.

그리고 우리는 그 여정을 공개적으로 기록하고 있습니다:
실험,
실패,
아키텍처 결정,
그리고 그 과정에서 얻은 교훈들을 말입니다.

우리는 몇 달 동안 스스로 개선되는 AI 시스템을 구축했습니다. 실제로 일어난 일은 다음과 같습니다.

요약

핵심 포인트

댓글