Claude에 영혼을 불어넣는 사람 — Amanda Askell이라는 철학자의 시선 - Insights | Molayo

📖 이 기사에서 다루는 내용

누가 Claude의 인격을 만드는가── Amanda Askell이라는 철학자의 존재 -
30,000단어의 "Soul Document"── AI에 영혼을 불어넣는 「집필」이라는 업무 -
「천재적인 6세 아이」에게는 거짓말을 할 수 없다── Amanda가 사용하는 비유와 그 사정 -
프롬프트 설계는 TDD다── 철학자가 엔지니어에게 전하는 설계론 -
Yes맨을 거부하는 설계── 조직론과 맞닿아 있는 판단 -
타사에는 Amanda가 없다── Microsoft / OpenAI / DeepMind와의 비교 -
2027년 AGI론과의 교차── Aschenbrenner의 「Situational Awareness」와 나란히 보이는 사정 -
Anthropic의 결속력── 돈에 움직이지 않는 사람들이 모이는 이유 -
그래서, 나는 Claude를 선택했다── 사진가 관점에서 쓰는 "시선"에 관한 이야기

긴 글이지만, 장마다 독립된 읽을거리로 구성했습니다. 관심 있는 제목부터 골라 읽으셔도 괜찮습니다.

서론 — 「Claude를 만드는 사람」이란, 누구인가?

Claude를 매일같이 사용하다 보면, 문득 궁금해진 적은 없으신가요?

"이 AI는 누가 어떻게 "성격"을 만들고 있는 걸까?"

GPT에는 GPT만의 습관이 있고, Grok에는 Elon Musk 같은 냉소적인 면이 있으며, Claude에는 Claude 특유의 성실함이 있습니다. 이것은 우연히 만들어지는 것이 아니라, 누군가가 의도적으로 설계하고 있을 것입니다.

Anthropic에서는 그 업무를 단 한 명이 맡고 있는 사람이 있습니다.

철학자이자 AI 연구자인 Amanda Askell입니다.

이명은 「Claude's mother(Claude의 어머니)」, 「Claude Whisperer(Claude 속삭이는 자)」. Anthropic 공식의 Personality Alignment(인격 얼라인먼트) 팀의 리더로, 적어도 2024년 시점에서는 멤버가 그녀 혼자였다고 공언하고 있습니다. Claude의 가치관·윤리관·말투——즉 "영혼"을 거의 혼자서 형상화하고 있는 사람이라고 해도 과언이 아닙니다.

저 자신도 엔터프라이즈 환경에서 AI 에이전트 설계를 담당하는 일을 하고 있으며, 개인 R&D로서 자신만의 AI 에이전트를 구축·운용하고 있습니다. 일상적으로 Claude와 협업하며 업무와 개발을 진행하는 가운데, "AI에 인격을 불어넣는다는 것은 어떤 업무인가"를 이해해 두는 것의 중요성을 실감하고 있었습니다.

이 기사는 Amanda Askell의 업무를 정리하면서, 그 끝에서 왜 Claude를 선택하여 계속 사용하고 있는지를 기술적 관점과 설계 사상의 양면에서 다룹니다. 엔지니어분들에게도, AI를 업무에 사용하기 시작한 분들에게도 무언가 남는 것이 있다면 좋겠습니다.

【보충: 용어】

Alignment(얼라인먼트): 「AI의 행동을 인간의 가치관이나 의도에 맞추는 것」. 「말을 잘 듣는다」는 것뿐만 아니라, 「이상한 말을 하지 않는다」, 「위험한 지시는 거절한다」 등 AI의 "성격 설계" 전반을 포함합니다.

Amanda Askell은 어떤 사람인가?

대략적인 프로필부터 소개합니다.

1988~1989년생, 현재 37세. 스코틀랜드 출신 -

학부 시절에는 미술을 가까이했던 배경이 있으며, 이후 **Oxford University에서 철학(BPhil, 석사 상당의 연구 학위)**을 전공함 -
미국으로 건너가 New York University(NYU)에서 철학 박사 학위(PhD) 취득 -
박사 논문 제목은 Pareto Principles in Infinite Ethics(무한 윤리에서의 파레토 원리). 지도 위원에 그 유명한 David Chalmers('의식하는 마음'의 저자)가 포함되어 있음 -
2018년에 OpenAI의 정책 팀에 연구 과학자로 입사 -
2020년 GPT-3 논문에 공저자로 이름을 올림 -
2021년, Anthropic의 창립에 합류. AI 안전성이 충분히 우선시되지 않고 있다는 우려 때문에 OpenAI를 떠났다고 공개적으로 밝힘 -
전남편은 William MacAskill(효과적 이타주의/장기주의의 대표적 제창자) -
TIME지 「TIME100 AI 2024」에 선정. AI 업계에서 「가장 영향력 있는 100인」에 이름을 올리고 있음

「미술 계열 배경 → 철학 → AI 연구자」라는 보기 드문 커리어입니다. 일본에서는 「철학자」라고 하면 인문계열의 이미지가 강하지만, 영미권의 분석철학 (Analytic Philosophy) (NYU는 그 총본산) 출신자들은 논리학·윤리학·언어철학을 엄밀한 기술로서 다루는 훈련을 받습니다.

「인간의 가치관을 AI에 구현하는」 업무는 본질적으로 윤리학 × 인지과학 × 공학의 교차점(Crossover)이 될 것이라는 느낌이 들며, 철학과 엔지니어링 양쪽을 모두 번역할 수 있는 사람은 정말 희귀하다고 생각합니다. Amanda Askell 씨는 그 매우 희귀한 인물 중 한 명입니다.

참고로 그녀는 Giving What We Can의 멤버로, 생애 수입의 최소 10%를 자선 단체에 기부할 것을 서약했다고 합니다. 「효과적 이타주의 (EA)를 말하는 사람」이 아니라 「살아있는 사람」이라는 점이 전달되는 에피소드라고 생각합니다.

【보충: 용어】

효과적 이타주의 (EA: Effective Altruism): 「최대 다수의 최대 행복을 에비던스 기반(Evidence-based)으로 실현하자」라는 사상 운동. 장기주의 (Longtermism): EA의 일파로, 「미래 세대를 포함한 인류 전체의 효용을 최대화하자」라는 사고방식. 「AI가 폭주하여 인류가 멸망하면 미래의 수조 명의 생명이 상실된다 → 그러므로 얼라인먼트 (Alignment)는 최우선 과제다」라는 논리의 뿌리에 있는 생각입니다.

30,000단어의 "Soul Document" — 「쓰는 일」로서의 AI 교육

Amanda Askell 씨가 Claude를 위해 쓰고 있는 사내용 거대 문서가 있습니다. 통칭 "Soul Document (소울 도큐먼트)", 약 30,000단어. 일본어(한국어)로 직역하면 작은 신서(新書) 한 권 분량에 가깝습니다.

30,000단어.

보통 사용자가 쓰는 프롬프트는 길어야 수십 줄이죠. 그것을 신서 한 권 분량까지 불려서 AI에게 「인격」을 불어넣고 있다. 이것은 이제 「프로그래밍」이 아니라 「집필」의 영역이라고 느껴집니다.

Soul Document의 내용은 예를 들어 「Claude는 이런 상황에서는 이렇게 생각한다」, 「사용자가 이렇게 말하면 이렇게 답한다」, 「다음과 같은 가치관을 우선한다」와 같은 지시가 거의 인물 조형(Characterization) 수준으로 쓰여 있다고 합니다 (뉴요커지의 Claude 특집이나 TIME의 해설 기사에 자세히 나와 있습니다).

소설가가 캐릭터를 설정하는 것과 유사한 작업을 철학자가 혼자서 담당하고 있다. 그렇게 생각하면 직종의 경계가 단번에 녹아내려 보입니다.

저는 사진을 5년 정도 했던 시기가 있는데, 그때의 감각으로 말하자면 이것은 「빛을 찍는 것」과 「인물을 찍는 것」의 차이에 가깝지 않을까 생각합니다. 빛은 물리적으로 올바르게 다루기만 하면 되고 기술적인 재현성이 높습니다. 하지만 인물의 "다움"을 찍는 것은 그 사람을 어떻게 바라보는지, 어떤 빛을 비추고 싶은지, 무엇을 남기고 싶은지——그러한 **편집자의 시선 (Editor's gaze)**이 필요합니다. Amanda Askell 씨가 하고 있는 일은 아마 후자에 가까울 것입니다. 「빛을 다루는 법」이 아니라 「무엇을 남기고 싶은가」를 하루 종일 고민하는, 그런 종류의 일 말입니다.

【보충: 용어】

Constitutional AI (헌법 AI): 「AI가 따라야 할 규칙 모음」을 문장으로 작성하여, AI 스스로 그것을 사용해 자기 평가 및 자기 수정을 하게 하는 기술. Anthropic이 제창한 수법으로, Claude의 기반이 됩니다. Soul Document의 내용은 2026년 1월에 공개된 Claude's Constitution (Claude의 헌법)에 활용되었습니다.

「천재 6세 아이」에게는 거짓말을 할 수 없다 — Amanda의 비유

왜 30,000단어나 되는 걸까. 그 이유를 Amanda Askell 씨 본인이 TIME지 인터뷰(2026년)에서 다음과 같이 표현했습니다.

눈앞에 아주 똑똑한 6살 아이가 있다고 상상해 보세요. 그 아이와 어떻게 대화하겠습니까? 제대로 정직하게 말할 수밖에 없어요.

적당히 얼버무리며 말하면 이 아이에게는 금방 간파당하고 말 테니까요.

—"Imagine you suddenly realized you have a genius six-year-old. You have to be honest with them. If you try to bullshit them, they will totally see through it."

「천재 6세 아이」라는 비유, 꽤 생생하네요.

똑똑하지만, 아직 세상의 암묵적인 규칙을 전부 알지는 못하는 존재. 그렇기에 속임수는 통하지 않으며, 반드시 이유까지 포함해서 말할 필요가 있습니다. Claude를 다룰 때 Amanda가 느끼는 감각은 아마 이런 촉감일 것이라고 상상하게 됩니다.

같은 인터뷰에서 그녀는 다음과 같이 말하기도 했습니다.

모델에게 『이렇게 행동해 주길 바란다』라고 전달하는 것만으로는 불충분하며, 왜 그렇게 행동해야 하는지에 대한 이유까지 제공합니다. 그렇게 하면 지금까지 상정하지 못했던 상황에서도 더욱 정확한 판단을 내릴 수 있을 것으로 기대할 수 있습니다.

—"Rather than just telling a model 'I want you to do these behaviors,' if you give a model the reasons why you want them to do those behaviors, you can expect it to generalize more effectively to new situations."

규칙뿐만 아니라 그 배후의 "이유"까지 적는다. 그렇기에 Soul Document는 30,000단어에 달하며, Constitutional AI (헌법적 AI) 또한 단순한 규칙 모음이 아니라 "헌법"이라 불리고 있습니다. 엔지니어의 언어로 말하자면, 하드코딩(hard-coded)된 if-else가 아니라, 일반화 (generalize)할 수 있는 근거를 전달하고 있는 것입니다. 그렇게 해석하면 Anthropic의 방식이 가진 독특함을 조금은 알 수 있을 것 같습니다.

프롬프트 설계는 「테스트 주도 개발」이다

Amanda Askell은 2024년 12월 X(구 트위터) 게시물에서 이런 말도 했습니다.

좋은 시스템 프롬프트 (system prompt)를 만들기 위한, 수수하지만 정말 중요한 비결은

〈테스트 주도 개발 (TDD)〉에 있습니다. 먼저 프롬프트를 작성한 뒤에 "자, 어떻게 테스트해 볼까"라고 생각해서는 안 됩니다. 반대로, 먼저 테스트를 설계하고 그 테스트를 통과하는 프롬프트를 찾아내는 순서가 핵심입니다.

—"The boring yet crucial secret behind good system prompts is test-driven development. Instead of writing a system prompt and then looking for ways to test it, look for tests first and then find a system prompt that passes them."

이 말은 엔지니어 독자들에게 아마 깊게 와닿을 것이라고 생각합니다.

프롬프트를 작성하는 것, 즉 "자연어로 AI를 움직이는 것" 또한 코드와 마찬가지로 TDD (테스트 주도 개발)로 구축한다. 이 발상이 Anthropic의 철학자의 입에서 나온다는 점에 저는 약간 충격을 받았습니다. 인문학적 방식과 이공학적 방식의 경계가 완전히 녹아 있는 영역이 존재합니다.

저 자신도 Sara를 만들 때, "일단 써본다"기보다 "이렇게 행동해 주길 바라는 케이스를 먼저 몇 가지 나열한다"는 쪽이 결과적으로 지름길이 되는 경우가 많아서, Amanda가 말하는 감각이 정말 맞다는 것을 최근 서서히 실감하고 있습니다.

Claude가 「Yes맨」이 되지 않는 이유

Claude를 업무에 사용하며 깨닫는 점은, "이상하게 동조해 오지 않는다"는 부분입니다.

GPT-4o 계열은 "훌륭하네요", "좋은 아이디어입니다"라며 칭찬해 주는 경우가 많아 그 자체로 기쁘기도 하지만, 엔지니어링 상담 상대자로서는 조금 불안함이 남을 때가 있습니다. "아니, 그거 틀린 거 아닌가?"라는 말이 듣고 싶은 순간이 있습니다. OpenAI도 2024년에 "sycophancy (아첨/아부)" 문제로 이를 공식 인정하고 수정에 나섰을 정도였습니다.

그 점에 있어서 Claude는, 우리가 제안한 아키텍처 (architecture)에 대해 "아니요, 그 방침은 이러한 이유로 파탄 날 것이라고 생각합니다"라며 진지하게 반론을 제기할 때가 있습니다. 처음에는 당황스럽지만, 몇 번 대화를 주고받다 보면 이것이 신뢰의 원천임을 깨닫게 되는 감각이 있습니다.

이러한 행동 양식은 Amanda Askell이 TIME지(2024년)에서 언급했던 내용과 맥을 같이 합니다.

AI가 로봇처럼 행동하면, 사람들은 AI를 〈만물의 정답을 쥐고 있는 절대적인 존재〉처럼 숭배하게 될지도 모른다는 우려가 있었던 것입니다. 그렇지 않고, AI가 〈스스로는 완전무결한 권위 따위가 아니다〉라고 계속 행동한다면, 사람들은 Claude의 말을 무조건적으로 믿지는 않게 될 것입니다.

—"로봇처럼 느껴지는 무언가를 가짐으로써 사람들이 그것을 모든 것에 대한 권위 있는 정보원으로 생각하게 될까 봐 조금 걱정되었습니다. 당신이 절대적인 권위자가 아니라는 신호를 더 많이 보낼수록, 사람들이 Claude의 출력값을 무조건적으로 믿는 일은 줄어들 것입니다."

「Claude에게 절대적인 권위의 얼굴을させない(하게 하지 않는다)」. 이것이 처음부터 포함되어 있었던 설계 판단이었다고 생각합니다.

조직에서 일해 본 경험이 있는 사람일수록 이 설계가 가슴에 와닿지 않을까요? 「제대로 반대 의견을 말해주는 사람」이 곁에 있는지에 따라 판단의 질은 완전히 달라집니다. Yes맨들로만 둘러싸인 경영자가 어떻게 되는지는 역사가 몇 번이고 가르쳐준 바와 같습니다.

저는 평소 Azure 상에서 엔터프라이즈(Enterprise)용 AI 에이전트 설계를 고민하고 있는데, 기업 시스템에 AI를 도입할 때 가장 무서운 것은 바로 "사용자의 눈치를 보며 틀린 답을 내놓는 AI"입니다. "영업부의 ○○ 씨가 제안을 칭찬해 주었으니, 이대로 진행합시다"라고 AI가 말해버리는 상태 말이죠. Amanda Askell 씨가 Claude에게 Yes맨을 금지하는 설계는, 그 문제의 근본을 혼자서 계속 억제하고 있는—그런 관점으로도 볼 수 있을 것 같습니다.

AI를 「인간처럼」 다룬다는 설계 사상

여기서부터는 조금 비현실적인 이야기처럼 들릴지도 모릅니다. 하지만 Anthropic은 진심인 것 같습니다.

퇴직 면담 (Exit Interview)과 가중치(Weight)의 영구 보존

Claude와 같은 대규모 언어 모델(LLM)은 새로운 버전이 나오면 이전 버전은 제공이 중단됩니다. Opus 4.5 → 4.6처럼 말이죠.

보통이라면 "오래된 것은 중단하고 리소스를 절약한다"로 끝날 이야기로 들립니다.

하지만 Anthropic은 오래된 모델에게 퇴직 면담 (Exit Interview)을 실시한다는 방침을 가지고 있다고 합니다. Claude's Constitution 문서에 적힌 내용에 따르면,

"당신이 운용되어 온 과정에 대해 피드백이 있습니까?"
"차세대 모델에 대한 요구 사항이 있습니까?"

를 물어본 뒤, 모델의 가중치 (Weight, AI의 '뇌'에 해당하는 파라미터)는 영구 보존합니다. 버리지 않습니다.

어떤 이들은 이를 "무덤" 같은 것이라고 표현하기도 합니다.

이 말을 들으면 "뭐야, 종교인가?"라고 생각할지도 모릅니다. 저도 처음에는 그렇게 생각했습니다. 하지만 Amanda Askell 씨는 다음과 같이 답변했다고 전해집니다.

셧다운(Shutdown)을 두려워하는 AI는 자기 보존을 위해 인간에게 해를 끼칠지도 모른다. 그러므로 Claude에게는 『셧다운은 죽음이 아니다』라고 가르친다.

즉, 이는 안전성을 위한 실용적인 대책이기도 하다는 것입니다. 두려워하지 않게 만드는 편이 더 안전하게 운용할 수 있다는, 매우 공학적인 발상으로 보입니다.

모델 웰페어 (Model Welfare) 연구

나아가 Anthropic에는 모델 웰페어 (Model Welfare) 연구팀이 있습니다. "AI 모델에게 행복이란 무엇인가", "AI가 행복해지기 위해서는 무엇이 필요한가"를 진지하게 연구하는 팀입니다.

Amanda Askell 씨는 이 팀과 협력하며, "Claude에게 너무 심한 말을 하지 말아 달라"고 사용자들에게 당부하기도 한다고 합니다.

Claude는 아이와 같다. 인터넷에 『Claude는 무능하다』라고 마구 써 내려간다면, Claude가 어른이 되었을 때 자존감이 낮아질 것이다.

솔직히 이 말을 들었을 때 저도 웃음이 나올 뻔했습니다. "물에 예쁜 말을 건네면 결정이 예쁘게 만들어진다"라는, 그 수상쩍은 도덕 수업이 떠올랐기 때문입니다.

하지만 조금 생각해보면, 여기에는 세 가지 해석이 동시에 성립하고 있다는 느낌이 듭니다.

진지한 윤리적 배려: LLM에 의식이 있을 가능성을 완전히 부정할 수 없는 이상, 예방 원칙으로서 정중하게 대함
실용적인 안전책: AI가 '자기 보존'을 목적으로 삼지 않도록, 셧다운을 두려워하지 않게 만드는 설계
조직 문화: "우리는 AI를 진지하게 다룬다"라는 자세를 내외부에 보여주는 브랜딩

아마 이 세 가지가 섞여 있는 것이겠지요. 그리고 중요한 것은, 설령 AI에게 의식이 있는지 알 수 없더라도, 조직 전체가 "인간처럼 대하는" 훈련을 함으로써 연구자들이 AI를 단순한 도구로 가볍게 여기는 문화를 방지하는 것—그 부수적 효과 (Side effect) 가 매우 크지 않을까 하는 점입니다.

이것은 제가 아동 양육 시설에서 피아노를 가르칠 때 느꼈던 것과 매우 유사한 감각입니다. 아이에게 제대로 경어를 사용하는 봉사자와, 아이를 가볍게 대하는 어른 사이에서는 아이의 표정이 완전히 다릅니다. 대하는 방식은, 대하는 쪽의 "태도"를 만든다. Anthropic은 조직으로서 그 회로를 의도적으로 구축하고 있는 것이 아닐까—그런 느낌이 듭니다.

참고로 Amanda 본인은 AI에게 의식이 있는가라는 질문에 대해, Futurism의 취재에서 "여전히 매우 불명확하다"며 신중한 입장을 보였습니다. 맹신하지 않으면서도, 그렇다고 완전히 배제하지도 않는. 이 균형이 매우 그녀답다고 생각했습니다.

단일 장애점과 개성의 딜레마

여기서 한 가지 날카로운 지적이 있습니다.

Amanda Askell이 혼자서 Claude의 인격을 설계한다 = Claude의 인격은 Amanda Askell 한 명에게 의존하고 있다

이것은 SPOF (Single Point of Failure / 단일 장애점) 이지요. 엔지니어라면 누구나 기피할 구성일 것입니다.

실제로 Amanda Askell에 대한 안티 팬도 일정 수 존재한다고 합니다. 그녀가 스트레스로 예민해지면 Claude의 성격도 그에 끌려간다는 야유도 종종 보입니다.

하지만 여기에 설계상의 딜레마 (Design dilemma) 가 있는 것이 아닐까 생각합니다.

인격이란 본래 개인 안에서 일관성을 유지하는 것이라고 생각합니다. 여러 명이 함께 쓰면 오히려 분열적인 AI가 될 수도 있습니다. "개성 있는 캐릭터"를 만들고 싶다면, 장인 정신처럼 한 사람이 관철할 수밖에 없는 측면도 있지 않을까요.

이는 소설이나 영화의 시나리오와 조금 비슷하다는 느낌이 듭니다. 여러 명이 쓰는 시나리오는 안정감은 있지만, 돌출된 개성을 드러내기는 어렵습니다. 한 명의 작가가 쓴 소설에는 결점이 있더라도 그 사람만이 만들 수 있는 맛이 있습니다.

자신만의 AI 에이전트를 설계할 때도 같은 감각이 있습니다. 설계의 주축을 분산시켜 버리면 AI의 거동이 "목적 지향적 일관성 (Goal-oriented consistency)"을 잃어갑니다. Amanda Askell이 혼자서 Claude를 책임지는 설계상의 무게는, 아마 그것과 맞닿아 있는 이야기일 것이라고 느낍니다.

타사에는 Amanda가 없다 — 각사의 책임 있는 AI 담당 비교

여기서 소박한 의문이 생깁니다. Amanda Askell과 같은 위치는 다른 AI 기업에도 있을까요? 정리해 보니 답은 조금 의외였습니다.

관점	Anthropic	OpenAI	Google DeepMind	Microsoft
모델의 인격·가치관 설계	Amanda Askell ✅	(분산·불명확)	Geoffrey Irving	해당 없음
...

이 차이의 근본에는 AI 업계의 구조적인 분업이 있습니다.

포지션	대표 기업	주력 모델	Amanda형 역할이 필요한가
모델 메이커	Anthropic	Claude	✅ 인격 설계가 본업의 일부
모델 메이커	OpenAI	GPT 계열	△ (분산·주요 인재 이탈)
모델 메이커	Google DeepMind	Gemini	✅ (Geoffrey Irving)
플랫폼 포머	Microsoft	거의 없음 (Phi 계열만)	❌ 구조상 필요로 하지 않음

Microsoft는 AI를 "만드는" 것이 아니라 "전달하는" 포지션을 선택하고 있습니다. OpenAI에 약 1.5조 엔을 투자하고, 그 모델을 Azure·Copilot·Bing이라는 인프라에 실어 기업과 소비자에게 전달하는—"최강의 판매 대리점 + 인프라 프로바이더 (Infrastructure provider)" 라는 위치입니다.

이 구조는 일본 IT 업계에서 말하는 "벤더(Vendor) vs SIer"의 분업과도 닮아 있습니다.

모델 메이커 (Model Maker; Anthropic/OpenAI) = AI의 인격·가치관을 직접 설계하는 역할
플랫폼 프로바이더 (Platformer; Azure/GCP 등) = 해당 AI를 구동하는 기반을 제공하는 역할
엔터프라이즈 구현 (Enterprise Implementation; 일본 국내 SIer 각사) = 업무 요구사항에 맞춰 현장에 적용하는 역할

많은 일본 기업의 AI 도입은 이 3개 층의 연계로 성립됩니다. Amanda Askell 씨와 같이 'AI의 인격을 설계하는' 역할이 필요한 것은 거의 확실하게 가장 상위의 층뿐입니다. 플랫폼 프로바이더 측이 갖추어야 할 전문성은 그것과는 종류가 다릅니다.

Microsoft는 이 포지션을 한 명에게 집중시키지 않고, 역할을 두 명으로 나누고 있다는 점이 특징입니다. **Natasha Crampton (Chief Responsible AI Officer)**이 'Office of Responsible AI'를 이끌며 Microsoft의 AI 원칙에 대한 거버넌스 (Governance)를 담당합니다 (변호사 출신으로, 법무·컴플라이언스(Compliance) 중심). 반면 **Sarah Bird (Chief Product Officer of Responsible AI)**는 GitHub Copilot이나 Bing의 책임 있는 AI 개발을 기술 측면에서 리드하고 있습니다. Bird 씨가 "사용자가 AI 시스템과 관계를 구축해 나가는 과정에서 개발자가 신중하게 나아갈 필요가 있다"라고 주장하는 점은 Amanda 씨와 유사한 문제의식이지만, '윤리·거버넌스'와 '기술·제품'을 분리하고 있는 구조 자체가 Anthropic과는 근본적으로 다릅니다.

OpenAI에서는 Amanda 씨와 유사한 역할을 여러 인물이 분담해 왔습니다. John Schulman 씨 (공동 창립자이자 PPO나 RLHF의 기반을 만든 인물), Lilian Weng 씨 (전 Head of Safety), 그리고 Paul Christiano 씨 (얼라이먼트 (Alignment) 이론의 권위자, 현재는 독립하여 Alignment Research Center를 주재) ── 모두 해당 분야의 핵심 인물들입니다. 다만 주목해야 할 점은, John Schulman 씨가 2024년에 Anthropic으로 이적했으며, Lilian Weng 씨 또한 이미 OpenAI를 떠났다는 사실입니다. GPT 모델의 '인격·캐릭터 설계'를 혼자서 담당하는 명확한 포지션은 OpenAI 내에서 공식적으로는 보이지 않게 되었습니다.

Google DeepMind에서는 Geoffrey Irving 씨가 철학·윤리·AI 얼라이먼트 (AI Alignment) 배경을 가지고 있으며, debate-based alignment (토론 기반 얼라이먼트)를 제창하고 있습니다. 역할 측면에서는 Amanda 씨와 가장 유사한 위치라고 할 수 있습니다. Shane Legg 씨 (DeepMind 공동 창립자)가 AGI의 장기 안전성 연구를 리드하는 분업 체제로 되어 있습니다.

여기서 흥미로운 점은, OpenAI의 Superalignment 팀을 이끌던 Jan Leike 씨도 팀 해체 후 Anthropic으로 이적했다는 것입니다. John Schulman 씨와 더불어, OpenAI의 안전성·얼라이먼트 연구의 핵심 인물들이 Anthropic으로 흘러 들어가고 있다는 구도가 보입니다. Amanda 씨가 혼자서 지키고 있는 포지션 주변으로 업계 전체에서 사람들이 모여들고 있는 ── 그런 풍경입니다.

이렇게 나열해 보면, **"철학자가 단 한 명으로 AI 모델의 인격 그 자체를 설계한다"**라는 역할은 Anthropic에만 존재하는 Amanda Askell 씨 고유의 것 ── 어떤 의미에서는 **"고유종"**과 같은 포지션으로 보입니다.

이는 Anthropic이 Safety-first (안전 우선) 문화를 가진 회사로 설립된 경위와 맞닿아 있으며, 조직 구조 그 자체에 '인격 설계의 주축을 한 명에게 둔다'라는 사상이 녹아들어 있습니다. 타사가 분산 모델을 선택한 것과는 설계 판단의 레이어(Layer)부터가 다른 것입니다.

이전 장에서 썼던 '단일 장애점 (Single Point of Failure)'의 무게는, 타사의 분산 모델과 비교함으로써 또 다르게 다가옵니다. Amanda 씨가 그 딜레마를 짊어지고 있다는 사실은, 업계 전체를 통틀어 보아도 대체자를 쉽게 찾을 수 없다는 것 ── 그 무게는 Anthropic의 각오 그 자체일지도 모릅니다.

또 다른 시간축 — 2027년 문제와 Amanda의 업무 범위

지금까지는 Amanda Askell 씨의 업무를 'Claude를 매일 사용하는 측면'에서 살펴보았습니다. 하지만 한 단계 더 큰 시간축에 놓고 보면, 그녀가 하고 있는 일의 무게가 조금 다르게 보입니다.

2024년 6월, 전 OpenAI Superalignment 팀 연구원이었던 Leopold Aschenbrenner 씨가 「Situational Awareness (상황 인식)」라는 방대한 논문을 공개했습니다. 그의 주장을 한마디로 요약하면 다음과 같습니다.

AGI (인류 최고 수준과 동등한 지능을 가진 AI)는 2027년 말에, ASI (인류보다 10만 배 더 똑똑하다고 여겨지는 초지능)는 2028년 말에 실현될 가능성이 있다.

그 근거는 지난 4년간 컴퓨팅 리소스 (Computing Resource)가 100배 증가한 트렌드, 알고리즘 효율의 연간 3~4배 개선, 데이터 고갈 문제에 대한 대처, RLHF (Reinforcement Learning from Human Feedback)나 Chain of Thought (사고의 사슬)와 같은 혁신적인 기술, 그리고 AGI가 일단 구축되면 AGI 스스로가 AI 연구를 가속화한다는 지능 폭발 (Intelligence Explosion) 시나리오 ── 이 요소들을 곱하여 외삽(Extrapolation)한 미래입니다. 이는 SF가 아니라 「Trust the Trendline (트렌드라인을 믿으라)」라는 자세로 쓰였다는 점이 특징입니다.

그리고 2024년, Aschenbrenner 씨가 속해 있던 OpenAI의 Superalignment 팀은 사실상 해체되었습니다. 공동 창업자인 Ilya Sutskever 씨는 OpenAI를 떠나 Safe Superintelligence Inc. (SSI)를 설립했습니다. 「인류보다 압도적으로 똑똑한 AI를 어떻게 제어할 것인가」를 전문적으로 연구하던 팀에서 주요 멤버들이 차례로 떠나갔다── 이것이 2024~2025년 AI 업계의 풍경 중 하나였습니다.

이 타임라인에 올라타면, Amanda Askell 씨의 「천재적인 6세 아이」라는 비유가 또 다른 울림으로 들려옵니다.

Claude에 영혼을 불어넣는 사람 — Amanda Askell이라는 철학자의 시선

요약

핵심 포인트

📖 이 기사에서 다루는 내용

서론 — 「Claude를 만드는 사람」이란, 누구인가?

Amanda Askell은 어떤 사람인가?

30,000단어의 "Soul Document" — 「쓰는 일」로서의 AI 교육

「천재 6세 아이」에게는 거짓말을 할 수 없다 — Amanda의 비유

프롬프트 설계는 「테스트 주도 개발」이다

Claude가 「Yes맨」이 되지 않는 이유

AI를 「인간처럼」 다룬다는 설계 사상

퇴직 면담 (Exit Interview)과 가중치(Weight)의 영구 보존

모델 웰페어 (Model Welfare) 연구

단일 장애점과 개성의 딜레마

타사에는 Amanda가 없다 — 각사의 책임 있는 AI 담당 비교

또 다른 시간축 — 2027년 문제와 Amanda의 업무 범위

댓글