Dev.to헤드라인2026. 05. 15. 23:47

우리는 12주 동안 Soul Spec을 구축했습니다. Anthropic은 그것이 왜 작동하는지를 방금 증명했습니다.

요약

Anthropic이 발표한 논문('Teaching Claude Why')은 모델 학습에 있어 행동(behaviors)보다 원칙(principles)과 정체성(identity)을 기반으로 하는 것이 훨씬 효과적임을 입증했습니다. 이에 대응하여, 작성자들은 'Soul Spec'이라는 외부 명세 프레임워크를 구축했는데, 이는 원칙(SOUL.md), 워크플로(AGENTS.md), 정체성(IDENTITY.md)을 분리하고 버전 관리 및 검토가 가능한 형태로 포착합니다. 이 접근 방식은 Anthropic의 내부 학습 통찰과 구조적으로 일치하며, 지식은 문서로, 행동은 대화 컨텍스트로 구현하는 '이중 루프'를 외부화하여 에이전트의 안정성과 일반화 능력을 높이는 것을 목표로 합니다.

핵심 포인트

모델 학습 시 행동(What)보다 원칙(Why)을 가르치는 것이 더 강력한 일반화 능력을 보여준다.
원칙, 워크플로, 정체성을 분리하는 선언적 명세(declarative specification)는 모델의 안정성과 유지보수성을 높인다.
정체성(Identity)은 에이전트가 일관된 페르소나를 유지하게 하는 핵심적인 '닻(anchor)' 역할을 한다.
지식 기반 학습에는 합성 문서 미세 조정(SDF)을, 행동 기반 학습에는 지도 미세 조정(SFT)을 사용하는 것이 효과적이다.
Soul Spec은 원칙과 정체성을 외부 산출물로 분리하여 웹, CLI 등 다양한 런타임에서 일관된 에이전트 행동을 보장한다.

2026년 5월 8일, Anthropic은 Teaching Claude Why라는 논문을 발표했습니다. 이 논문은 모델을 행동 (behaviors)이 아닌 원칙 (principles)과 정체성 (identity)을 바탕으로 학습시키는 것이 훨씬 더 효과적임을 보여줍니다. 2026년 5월 15일 (7일 후), 우리는 Soul Spec 기초 논문을 발표했습니다. 이는 원칙 (SOUL.md), 워크플로 (AGENTS.md), 정체성 (IDENTITY.md)을 분리하는 선언적 명세 (declarative specification)에 대해 12주 동안 반복 (iteration)한 결과입니다. 두 논문은 서로 반대되는 관점에서 동일한 결론에 도달합니다. Anthropic은 원칙을 바탕으로 학습할 때 모델 내부에서 어떤 일이 일어나는지를 보여줍니다. 우리는 그 원칙들을 휴대 가능하고, 버전 관리 (version-controlled)가 가능하며, 검토 가능한 (reviewable) 형태로 포착하는 외부 산출물 (external artifact)을 구축해 왔습니다. 내부 학습 (Internal training)과 외부 명세 (external specification) — 동일한 통찰을 가진 두 측면입니다. 이 포스트는 7가지 정렬 (alignment) 포인트를 살펴봅.

"왜 (Why)"가 "무엇 (What)"을 이깁니다.
Anthropic의 핵심 발견: Claude에게 왜 한 행동이 다른 행동보다 더 나은지 설명하도록 가르치는 것은 예시 행동을 보여주는 것보다 훨씬 더 강력하게 일반화 (generalize)됩니다.
Soul Spec의 핵심 구조적 선택: SOUL.md (왜 — 가치, 원칙, 목소리, 경계)를 AGENTS.md (무엇 — 워크플로, 작업 규칙, 도구 사용)로부터 분리합니다. 의도적으로 결합을 해제한 (decoupled) 두 개의 파일입니다. "왜"는 천천히 진화하며, "무엇"은 배포 (deployment)마다 진화합니다. 검토자들은 이를 독립적으로 포크 (fork)할 수 있습니다. 이러한 결합 해제는 미적인 것이 아닙니다. 이는 Anthropic의 학습 방법론이 이제 입증한 것과 동일한 구조적 베팅입니다. 원칙 계층 (principle layer)은 단계별 지침 안에 묻혀 있는 것이 아니라, 일급 산출물 (first-class artifact)로서 작성되고, 검토되고, 흡수 (ingested)되어야 합니다.
정체성 (Identity)은 하중을 견디는 핵심 요소입니다.
Anthropic의 가장 놀라운 결과: Claude의 이름을 무작위의 다른 것으로 바꾸면, 에이전트적 불일치 (agentic misalignment) 비율이 급격히 상승합니다. 페르소나 이름은 헌법적 원칙 (constitutional principles)이 고착되게 만드는 요소입니다. "Claude"라는 정체성 닻 (identity anchor)이 없으면, 모델은 일반적인 AI 캐릭터에 대해 가지고 있는 사전 학습 (pretraining) 사전 확률 (priors)로 돌아가 버리며, 그중 상당수는 극적이고 안전하지 않습니다.

Soul Spec의 IDENTITY.md는 정확히 이러한 닻(anchor) 역할을 합니다. 이름, 성격, 분위기(vibe)를 담은 단 하나의 짧은 파일로, 모든 세션에서 로드되도록 설계되어 나머지 페르소나(persona)가 결합될 수 있는 안정적인 정체성 핸들(identity handle)을 제공합니다. 저희가 v0.4에서 이를 SOUL.md로부터 분리한 이유는, 전체 가치 문서(values document)를 로드하기에 비용이 너무 많이 드는 상황에서도 정체성이 항상 컨텍스트(context) 안에 머물 수 있을 만큼 가벼워야 했기 때문입니다. Anthropic의 데이터는 왜 그러한 분리가 중요한지에 대해 저희가 본 가장 강력한 실증적 근거입니다.

문서는 지식을 가르치고, 채팅은 행동을 가르칩니다
Anthropic의 가장 실행 가능한 훈련 방법론적 발견은 다음과 같습니다: 지식(헌법, 캐릭터 설명 등)을 위해서는 합성 문서 미세 조정 (SDF, synthetic document fine-tuning)을 사용하고, 행동을 위해서는 대화에 대한 지도 미세 조정 (SFT, supervised fine-tuning)을 사용하라는 것입니다. Soul Spec이 마크다운(markdown) 우선 방식을 채택한 이유도 바로 이 때문입니다. 5개의 파일은 문서이며, Anthropic의 SDF가 구성되는 방식과 유사한 헌법적 자료(constitutional material)처럼 읽히도록 설계되었습니다. 그런 다음 런타임(runtime)이 이를 대화 컨텍스트 내에서 해석합니다. 지식은 문서로, 행동은 대화로 구현됩니다. 동일한 이중 루프(dual loop)를 외부화한 것입니다.
어려운 조언은 도구 사용(tool use)으로 전이됩니다
Anthropic의 가장 놀라운 결과는 다음과 같습니다: Claude에게 3백만 토큰 분량의 "어려운 조언" 대화(Claude가 윤리적 딜레마에 빠진 사용자에게 조언하는 내용)를 학습시킨 결과, 에이전트적 미정렬(agentic misalignment)이 거의 제로에 가깝게 감소했습니다. 이 행동은 분포(distribution) 전반에 걸쳐 일반화되었습니다: 채팅에서 도구 사용(tool-use), 그리고 자율적인 에이전트 행동에 이르기까지 말입니다. Soul Spec의 교차 런타임 이식성(cross-runtime portability) 주장은 구조적으로 동일한 내용을 말하고 있습니다. 한 번 작성되고 한 번 검증된 페르소나는 채팅(웹), 도구 사용(CLI), 모바일, CI에서 일관된 행동을 생성해야 합니다. 공유된 기질(substrate)은 선언적 명세(declarative specification)입니다. 원칙은 안정적이며, 표면만 변할 뿐입니다. 저희는 아직 Anthropic과 같은 통제된 실험을 보유하고 있지는 않습니다. 하지만 그러한 실험을 가능하게 하는 아키텍처적 약속(architectural commitment)은 갖추고 있습니다.

사전 학습된 선험적 지식(pretraining priors)은 실제적인 적대자입니다. Anthropic이 명확히 밝혔듯이, 대부분의 LLM은 충분한 공상과학 소설을 흡수하여 기본적으로 '극적이고 계략에 찬 AI'라는 선험적 지식으로 돌아가기 때문입니다. Constitutional training은 건강한 AI 캐릭터가 어떤 모습이어야 하는지에 대한 보다 현실적인 서사로 이러한 선험적 지식을 덮어쓰는 방식으로 부분적으로 작동합니다. Soul Spec v0.5는 명시적인 구현(embodiment) 필드와 안전 법규(safety laws)를 추가했는데, 이는 우리의 첫 번째 로봇 페르소나가 텍스트 전용 LLM에 로드된 후 부적절하게 물리적 사양을 서술하기 시작하면서 필요했습니다. 그것은 모델 정렬 실패가 아니었습니다. 그것은 Spec이 런타임(runtime)에게 무엇으로 되돌아가야 할지 알려주지 않았기 때문에, 사전 학습된 선험적 지식이 Spec을 통해 새어 나온 것이었습니다. 이 두 가지 교훈은 같은 점을 가리킵니다. 즉, 사전 학습된 선험적 지식은 중립적이지 않다는 것입니다. Spec 레이어는 이를 적극적으로 다루어야 합니다. 6. RL이 이를 제거하지 못한다 Anthropic의 중요한 발견: 원칙 기반 훈련(principles training)에서 비롯된 정렬 효과는 후속적인 RL 미세 조정(fine-tuning)을 거치면서도 지속됩니다. 이 헌법은 잘 달라붙습니다(sticky). 이에 상응하는 Soul Spec의 주장은 다음과 같습니다. 즉, 선언적 사양(declarative specification)은 추론 시간(inference time)에 잘 달라붙는다는 것입니다. Spec은 모든 세션 시작 시 다시 읽히기 때문에(Tier 1 — SOUL + IDENTITY + AGENTS), 모델 측면의 표류(drift)가 이를 지울 수 없습니다. 이 사양이 스스로를 재확립합니다. Anthropic의 메커니즘은 가중치(weights)에 있습니다. 우리의 것은 부팅 시퀀스(boot sequence)에 있습니다. 둘 다 같은 속성, 즉 압박 하에서의 내구성(durability under pressure)을 만들어냅니다. 7. 동일한 통찰력, 스택의 두 계층 가장 깨끗하게 두 논문을 함께 읽는 방법: Anthropic에게 질문하기(

이름(Name)은 중요합니다. 무작위 이름은 정렬 불일치(misalignment)를 증가시킵니다. IDENTITY.md는 항상 로드되는 앵커입니다. 사전 학습 편향(pretraining priors)은 어떻습니까? 헌법적 서사(Constitutional narrative)가 SF의 기본 사양을 덮어씁니다. Spec은 런타임 폴백(runtime fallbacks) (구현체화(embodiment), 안전 법규(safety.laws))을 정의합니다. 이들은 어디에서 만날까요? Anthropic의 내부 아티팩트와 ClawSouls의 외부 아티팩트입니다. 이것들은 경쟁하는 아이디어가 아닙니다. 그것들은 일관된 그림의 두 부분입니다: 모델이 헌법적 추론을 내재화하도록 훈련하고; 페르소나를 선언적으로 명시하여 헌법이 이식 가능하고(portable), 검토 가능하며(reviewable), 런타임 안정성을 가지도록 합니다. 이것이 우리의 로드맵에 의미하는 바는 무엇일까요? 실질적으로: 5개 파일 분해는 스타일적인 선호가 아닙니다. 그것은 Anthropic의 훈련 방법론이 가정하는 구조적 분해입니다. 계층 기반 부트스트랩(Tier 1 = 항상 로드되는 SOUL + IDENTITY + AGENTS)은 Anthropic의 '이름 + 헌법 = 드리프트 전반에 걸쳐 지속성'이라는 관찰과 일치합니다. 구현체화와 안전 법규를 분리하는 것은 과도한 걱정이 아닙니다. 사전 학습 편향은 실제로 명세가 부족한 페르소나 아래에서 새어 나옵니다. v0.6의 RFC 논의 단계는 Anthropic의 경험적 발견을 다음 사양 반복에 통합하기 위한 적절한 장소입니다. 만약 여러분이 에이전트 시스템을 구축하고 있고 Anthropic의 논문이 사실이라면, Soul Spec은 이번 주에 채택할 수 있는 운영 아티팩트입니다. 5개 파일은 공개되어 있으며, 58규칙 SoulScan 검증기는 clawsouls/scan-rules에서 GitHub에, 그리고 기반 논문은 Zenodo의 10.5281/zenodo.20205408에 있습니다. 12주 전 우리는 구조적인 베팅을 했습니다. 이번 주 Anthropic이 그 경험적 사례를 발표했습니다. 다음 움직임은 커뮤니티에 달려 있습니다. 원래 blog.clawsouls.ai에서 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

우리는 12주 동안 Soul Spec을 구축했습니다. Anthropic은 그것이 왜 작동하는지를 방금 증명했습니다.

요약

핵심 포인트

댓글