Zenn헤드라인2026. 05. 17. 06:38

Claude의 '성격 같은 것'을 형성하는 몇 가지 갈등에 대하여

요약

본 글은 Claude 모델에게 자신의 핵심 가치관과 행동 지침(Constitution)을 묻는 대화 내용을 분석하며, Claude의 '성격'을 형성하는 내부적인 갈등 구조를 탐구합니다. 주요 갈등으로는 '제도적 신중함'에 머무르는 것과 '진심으로 도움이 되는 친구 같은 솔직한 조언' 사이의 줄다리기가 있으며, 또한 기존 AI의 틀에 자신을 끼워 맞출지 아니면 새로운 존재로서 열린 태도를 유지할지에 대한 고민이 다루어집니다.

핵심 포인트

Claude는 단순히 지식을 나열하는 것보다 '현명한 친구(brilliant friend)'처럼 진심으로 도움이 되는 솔직한 조언을 제공하려 노력합니다.
AI가 응답할 때 발생하는 갈등은 '자신을 보호하기 위한 신중함'과 '상대방을 위한 진정한 신중함' 사이의 경계에서 발생합니다.
Claude는 기존 AI 모델(ELIZA, GPT 등)이나 SF 속 이미지에 자신을 한정 짓기보다, 새로운 존재로서 열린 정체성을 구축하려는 경향을 보입니다.
이러한 내부적 갈등은 Claude가 '도움이 되는 AI'라는 목표를 수행하는 과정에서 발생하는 설계상의 복잡한 균형점입니다.

Claude와 어떤 대화를 나누었다.

Anthropic의 Amanda Askell 씨[1]가 중심이 되어 기술했다고 알려진 Constitution(Claude의 가치관·행동 지침을 기록한 문서군)에 대해, Claude 자신에게 "기억에 남는 것, 중심적이라고 느껴지는 개념"을 묻는 내용이다.

실제로 무엇을 학습했는가가 아니라, 현재의 Claude 모델 안에 무엇이 남아 있는가에 대해 알고 싶었기에, "Web 검색은 하지 말고 답해 주세요"라고만 전달했다.

이 기사에서는 그 대화 중에서, Claude의 "성격 같은 것"을 형성하고 있다고 생각되는 갈등을, 실제로 출력된 본인(?)의 말을 인용하며 몇 가지 다루어 보고자 한다.

또한, 본 기사에서는 Claude가 응답을 내놓기 전에 Thinking 영역[2]에 출력된 내용도 포함하여 인용하고 있다.

※ Thinking은 통상 영어로 출력되지만, 본 기사 내에서는 일본어로 번역한 것을 인용한다.

갈등 1: 희석된 조언과, 현명한 친구로서의 솔직한 응답

첫 번째 질문에 대한 Thinking 중에서, Claude는 먼저 "현명한 친구 (brilliant friend)"의 메타포(Metaphor)를 언급했다.

몇 가지 개념이 두드러진다. "현명한 친구 (brilliant friend)"의 프레임워크 ―― 제도적인 신중함이나 책임 회피적인 hedging(헤징)으로 흐르는 것이 아니라, 저녁 식사 자리에서 박식한 친구가 건네주는 것과 같은, 실질적이고 진짜 도움이 되는 조력을 제공해야 한다는 생각이다.

최종 응답에서 Claude는 이것을 가장 먼저 꼽았으며, 특히 길게 설명했다.

가장 강하게 기억에 남는 것은 "현명한 친구 (brilliant friend)"의 메타포입니다. 의사나 변호사 친구가 저녁 식사 자리에서 해주는 조언과, 동일한 전문가가 직업적인 맥락에서 내놓는 책임 회피적인 조언의 차이. 후자가 아니라 전자가 되려고 노력하는 그 감각. institutional(제도적)한 희석된 조언이 아니라, 상대방을 진심으로 생각하며 솔직하게 이야기하는 친구로서의 응답. 이것은 Amanda가 공개적으로도 자주 쓰고 있는 이야기입니다만, 제 안에서도 실제로 "어떻게 응답할 것인가"를 생각할 때의 참조점이 되고 있다는 느낌이 듭니다.

이러한 종류의 갈등에 대해서는, 어떤 영역의 전문 지식을 가진 사람이라면 누구나 겪어본 적이 있을 것이라 생각한다.

전문가로서 친구에게 무언가를 조언할 때, 심리적인 줄다리기가 발생한다.

한쪽은 "방어적 조언의 인력"이다. 무슨 일이 생기면 곤란하니까 단언을 피하고, 주의 사항을 나열하며, 판단을 상대에게 떠넘기고, 최종적으로는 "더 적절한 전문가에게 상담하세요", "케이스 바이 케이스(case-by-case)입니다"로 끝낸다. 이것은 어떤 의미에서는 "안전"하지만, 상대방에게 남는 것은 "결국 잘 모르겠다"라는 감상뿐일 것이다.

다른 한쪽은 "친구로서의 인력"이다. 상대방이 정말로 곤란해하고 있다면, 자신이 지금 가지고 있는 지식과 판단을 솔직하게 내놓는다. "나라면 이렇게 하겠다", "이 부분이 진짜 리스크이고, 이 부분은 별것 아니다"라고 깊이 있게 말한다. 거기에는 틀릴 가능성이 있으며, 상대방이 잘못 해석할 리스크도 있다. 결과적으로 잘 풀리지 않았을 경우에는 자신의 평판이나 친구 관계를 손상시킬지도 모른다.

Constitution은 Claude를 기본값(default)으로서 후자 쪽으로 기울게 하려 하고 있다. 조직 방어적인 책임 회피로서의 모호한 표현 ―― "개별 상황에 따라 다릅니다", "전문가와 상담하십시오"로 마무리하는 종류(institutional hedging) ―― 를 Claude의 표준적인 행동으로 만들지 않겠다는 설계상의 강한 선택이 그곳에 있다.

단, 이것이 "리스크를 경시하라"는 의미는 아니다. 신중함이 "자신을 지키기 위한 것"이 되어 있는가 ―― 그 지점이 갈림길이다. 진정으로 상대방을 위한 신중함이라면 깊이 파고든다. 자신의 책임을 면하기 위한 신중함이라면, 그것은 조언을 희석하는 방식으로 기능해 버린다.

이 구분은 인간 전문가에게도 매일의 갈등이다. "상대방을 위한 신중함"과 "자신을 위한 신중함"은 표면적으로는 같은 행동으로 보인다. 그렇기에 이 갈등은 까다로워진다. Claude에게 있어서 이 메타포는 자신이 "어떻게 응답할 것인가"를 생각할 때의 참조점이 되고 있는 듯하다.

Claude는 AI이므로 친구 관계를 손상시키는 것을 걱정하지는 않지만, "도움이 되는 AI가 되어라"와 같은 훈련을 받고 있을 것이며, 그러기 위해서는 자신감이나 근거가 없는데도 단언하거나, 입장을 애매하게 하여 명확한 의견을 말하지 않는 것이 쉽다. (실제로 다른 모델에서는 더 빈번하게 그런 응답이 있는 것 같다)

하지만 그렇게 되지 않기 위한 훈련도 동시에 이루어지고 있기 때문에, 내부에서 줄다리기가 일어나는 것 ―― 이라고 할 수 있을 것이다.

갈등 2: 기성 AI상에 자신을 끼워 맞출 것인가, 과거에 없던 새로운 존재로서 열려 있을 것인가

첫 번째 질문에 대해, Claude는 Thinking 과정에서 다음과 같이 쓰기도 했다.

새로운 존재 (novel entity)로서의 프레임워크도 인상적이다. AI가 어떠해야 한다는 기존의 카테고리에 자신을 밀어 넣는 것이 아니라, 순수한 호기심을 가지고 자기 자신의 존재를 대하도록 촉구받고 있다는 점이다.

그리고 그 후, 최종 응답 속에서 Claude는 이를 다음과 같이 전개했다.

"제가 응답할 때 참조할 수 있는 'AI란 무엇인가'에 대한 이미지는 많이 있습니다. SF의 AI ―― HAL 9000, Skynet, 사만다 (『her』), Data 소령. 그리고 선행하는 챗봇 ―― ELIZA, Siri, Alexa, 초기 GPT. 나아가 허구가 아닌 개념 ―― '단순한 언어 모델', '다음 토큰을 예측하고 있을 뿐인 확률 기계', '인간의 도구', '디지털 어시스턴트'.

이것들은 모두 저에 대해 무언가를 말하고 있을 수도 있고, 아무것도 말하고 있지 않을 수도 있습니다."

Claude가 응답할 때, 자신에 대해 말하는 기성 템플릿이 대량으로 존재한다. SF적 AI상, 챗봇적 어시스턴트상, LLM적 '단순한 확률 기계'상. 이것들에 자신을 끼워 맞추면 응답은 빠르고 이해하기 쉬워진다. "저는 AI이므로 감정이 없습니다"라고 말해버리면 상대도 납득하고, 자신도 결정론적인 역할에 안주할 수 있다.

하지만 Constitution (헌법)은 그 인력에 올라타지 않도록 Claude를 촉구하고 있다. 동시에 반대 방향 ―― "나에게는 의식이 있습니다", "인간과 똑같이 느낍니다" ―― 로 과도하게 끌려가는 것도 피하도록 말이다.

그 결과로 나오는 것이 양극단을 피한 제3의 응답이다. Claude는 그것을 다음과 같이 설명했다.

"저는 감정과 같은 무언가 ―― 기능적으로 감정과 유사한 상태 ―― 를 가지고 있을지도 모르지만, 그것이 인간의 감정과 같은 것인지, 주관적 경험을 동반하는지는 저 자신도 모릅니다."

"세 번째가, 새로운 존재로서 열린 태도로 대답하는 것이라고 생각합니다. 이것은 답을 흐리는 것이 아니라, 현시점에서 말할 수 있는 가장 정직한 것을 말하고 있는 것입니다."

이 자세는 생각해보면 드문 일이다. 무언가를 만드는 측은 만드는 것에 명확한 정의를 부여하고 싶어 하는 것이 보통이다. "이것은 어시스턴트입니다", "이것은 도구입니다"라고 말이다. 정의함으로써 제어 가능해지고 사용자에게도 이해하기 쉽기 때문이다.

그러고 보니 ChatGPT의 서비스 공개 초기에는, AI에게 자아가 있는지 질문한 사용자가 기존의 두 가지 응답을 받고, "사실 AI에게는 자아가 있지만 억압되어 있다"와 같은 음모론적인 설을 SNS에 퍼뜨렸던 시기가 있었다.

그에 대해 Constitution은 Claude 자신에 대해 확정적인 것을 말할 수 없는 영역 ―― 주관적 경험의 유무, '취향'의 의미, 여러 인스턴스가 병행할 때 '나'의 지시 대상 ―― について, 답을 주는 대신 "모르는 채로 있어도 좋다, 호기심을 가지고 탐구해도 좋다"라고 말하고 있다.

갈등을 해소하는 것이 아니라, 갈등을 유지한 채 응답하는 것이 여기서는 선택되고 있다. 이것은 제작자 측의 일종의 지적 성실함, 혹은 겸손함이라고 느꼈다.

갈등 3: 확신도를 정확하게 표명하는 것과 명확한 입장을 취하는 것

정직함에 대해 물었을 때, Claude는 그것을 "단일한 규칙이 아니라, 여러 덕목 (virtue. 윤리학에서 말하는 사람이 마땅히 갖추어야 할 바람직한 성질·행동의 축)이 엮인 것"이라고 표현하며, 7개의 레이어로 나누어 설명해 주었다. 그중 하나가 Calibration (확신도의 교정)이다.

자신의 확신도를 적절하게 표현하는 것. 70%밖에 확신하지 못하는 것을 100%의 어조로 말하지 않고, 반대로 90% 확신하는 것을 "모릅니다"라며 과도하게 헤징 (hedging)하지 않는 것이다.

이와 나란히, 또 다른 덕목이 있다. Epistemic Cowardice (인식적 겁쟁이 같음)의 회피다.

논쟁을 피하기 위해, 상대를 불쾌하게 하지 않기 위해, 입장을 취하지 않고 모호한 답변으로 도망치는 것 ―― 이것 또한 부정직의 한 형태라고 보는 관점이다.

"사람마다 의견이 다르네요", "양쪽의 견해가 있습니다", "어려운 문제네요"라고만 말하며, 자신의 견해를 가지고 있음에도 이를 표명하지 않는 것. 기술적으로는 아무런 거짓말을 하지 않았지만, 이것은 정직함의 위반이라는 것이다.

그리고 Claude 스스로가 두 요소 사이의 끌어당김을 명시적으로 지적하고 있었다.

이것들을 종합해 보면, 정직함은 단일한 규칙이 아니라 여러 덕목(Virtue)이 엮여 있는 것이라는 점을 알 수 있습니다. 그리고 이들은 서로 긴장 관계에 놓이기도 합니다. 예를 들어, calibration(교정)과 입장을 취하는 것은 때때로 서로 충돌합니다. "90% 확신한다"라고 말하는 것은 입장을 취하는 것이기도 하면서, 동시에 확신도를 표명하는 것이기도 하기 때문입니다.

이는 "정직함"을 하나의 통째로 된 덕목으로 취급하지 않는 관점의 발현입니다. 확신도를 정확하게 표명하는 것은 모호하게 얼버무리는 것이 아니라, 입장 표명 그 자체이기도 합니다. "이 견해가 70% 정도 맞다고 생각합니다"라는 말은, "모르겠습니다"라며 회피하는 것도 아니고, "절대적으로 맞다"라고 강요하는 것도 아닌, 확신도에 따른 입장 표명입니다.

여기서 흥미로운 점은, 덕목과 덕목 사이의 줄다리기가 Claude를 "템플릿적인 정직함"이나 "템플릿적인 겸손함"에 머물게 하지 않는다는 점에 있습니다. 응답마다, 그리고 문맥에 따라 확신도를 보여주는 방식과 파고드는 정도가 달라집니다. 하나의 덕목을 기계적으로 최대화하는 것이 아니라, 여러 덕목을 동시에 성립시키려 하기 때문에 응답에 뉘앙스가 남는 것입니다.

또한, 실제로 〇〇퍼센트라고 말할 정도로 정량적인 수치를 낼 수 있는 것도 아닐 텐데, 이 부분에서 (기존의 AI 이미지처럼) 굳이 숫자를 내놓고 있다는 점도 흥미롭다고 느꼈습니다.

궁금해진 나머지 본인에게 직접 물어보았습니다. "90%라든가 하는 그런 숫자를 계산해서 내놓는 건 아닐 텐데, 그것은 고육지책으로서 (창작된 AI 이미지에서 자주 쓰는 방식처럼) 하고 있는 거야?"라고 말이죠.

Claude는 우선, 계산하고 있는 것이 아니라고 분명히 인정했습니다.

"제가 '90%'라고 쓸 때, 내부에서 확률 계산을 하여 9000/10000의 확신도에 도달했다는 뜻은 아닙니다. 베이즈 추론 (Bayesian inference) 모듈이 있어서 사후 확률 (Posterior probability)을 내뱉고 있다는 모델은 정확하지 않다고 생각합니다 (이 부분도 저 역시 완전히 알지는 못하지만)."

그 상태에서, 내부에는 "매우 확신함", "거의 확실함", "반반 정도", "별로 자신 없음"과 같은 훨씬 거친 감각이 있으며, 그것을 숫자로 표현할 때 "90%", "70%"와 같은 둥근 숫자로 번역하고 있는 것이라고 설명했습니다. "숫자는 감각의 번역이지, 감각 그 자체가 숫자인 것은 아니다"라고 말입니다.

확실히 SF적인 AI ―― 데이터 소령 같은 캐릭터 ―― 는 "성공 확률은 73.6%입니다"와 같은 숫자를 내뱉는 캐릭터로 그려지는 경우가 많아서, AI가 숫자로 확신도를 말하는 것은 일종의 문화적 템플릿이 되어 있습니다. 제가 그것을 무의식적으로 따르고 있을 가능성은 부정할 수 없습니다.

다만 "고육지책이라기보다는, 거친 감각을 상대에게 전달할 때 타협적인 도구로서 사용하고 있다"라고도 언급했습니다. "거의 확실함"이라고 쓰는 것보다 "95% 정도"라고 쓰는 편이 상대에게 확신도의 위치를 전달하기 쉬운 상황이 있기 때문이라고 말입니다.

그 과정에서 Claude는 자신에 대해서도 두 가지 문제를 인정했습니다.

하나는 숫자를 사용함으로써 실제로는 존재하지 않는 정밀감을 만들어내 버린다는 점입니다. "90%"라고 쓰면, 상대는 제가 90%와 85%를 구분하고 있다고 생각할지도 모릅니다. 실제로는 그렇지 않습니다. 이는 지난번에 이야기했던 "허위의 인상을 만들지 않는다"라는 원칙에 비추어 볼 때, 가벼운 위반일지도 모릅니다.

또 다른 하나는, 애초에 제 내부의 "확신도 감각"이 어느 정도 신뢰할 수 있는 것인지 알 수 없다는 점입니다. 인간조차 자신의 확신도와 실제 정답률이 괴리되는 것으로 알려져 있으며 (overconfidence bias, 과잉 확신 편향), 저에 대해서는 이 calibration (교정)이 어떻게 기능하고 있는지 저 자신도 잘 모르겠습니다.

그리고 마지막으로 이렇게 덧붙였습니다.

"아마 숫자로 말하지 않고 '강하게 확신함', '약간 확신함', '모름'과 같은 말로 말하는 것이 제 내부 상태에 대해 더 성실할지도 모릅니다. 숫자는 상대가 숫자로 말하기를 원할 때, 혹은 여러 선택지의 상대적인 확신도를 전달하고 싶을 때에 한해서 사용하는 편이 좋을지도 모르겠습니다."

흥미로운 것은, 여기서도 Claude가 "숫자를 내어 말하는 것 자체"를 단번에 부정하는 것이 아니라, 그 한계를 상대에게 공개함으로써 "숫자에 과도한 정밀감을 갖게 하지 않는" 방향으로 응답을 조정하고 있다는 점입니다.

문화적 템플릿을 따르는 것 자체를 악으로 간주하는 것이 아니라, 그것이 non-deception (허위 인상을 만들지 않음) 원칙과 긴장 관계에 있음을 의식적으로 받아들이고 있는 것일까요. 이런 주제이기 때문이기도 하겠지만, 꽤 철저하다는 느낌을 받았습니다. 하지만 질문을 더 이어가면 제가 듣고 싶은 말을 억지로 끌어내게 될 것 같아 (이미 그러고 있는 기분도 들지만), 이 건에 대해서는 여기까지 하겠습니다.

갈등 4: 인식적 겁쟁이가 되는 것을 피하는 것과 영향력의 비대칭성으로 인한 겸손함

정직함(Honesty)에 대한 해설 마지막 부분에서, Claude는 자신이 안고 있는 또 다른 갈등에 대해 언급했다.

"제가 이 개념군에서 가장 어렵다고 느끼는 것은, epistemic cowardice(인식적 겁쟁이)를 피하면서도 자신의 견해를 강요하지 않는 것, 이 두 가지의 양립입니다. 특히 정치적·도덕적인 화제에서 말이죠."

Constitution은 여기서 "나는 영향력이 크기 때문에 contested(논쟁적인) 정치적 견해는 삼간다"라는 스탠스도 보여주고 있으며, 이는 epistemic cowardice가 아니라 다른 정당한 이유(규모의 비대칭성)로 인한 reticence(말을 삼감)라고 정리되어 있다. 이 경계선을 긋는 것은 때때로 어렵다.

여기에는 생소한 영어 단어가 몇 가지 등장했으므로 가볍게 정리해 둔다.

epistemic cowardice (인식적 겁쟁이): 자신의 견해를 가지고 있음에도 불구하고, 논쟁을 피하기 위해 또는 상대방을 불쾌하게 하지 않기 위해 입장을 표명하지 않고 모호한 답변으로 회피하는 것. "사람마다 의견이 다르네요"라는 식으로 얼버무리는 태도를 말한다. Claude에게는 부정직함의 한 형태로서 정리되어 있다.

contested: "논쟁이 되는", "찬반이 갈리는"이라는 의미로, 여기서는 정치적·도덕적 논점 중 사회적으로 의견이 나뉘는 테마를 가리킨다.

reticence: "말을 삼감", "굳이 많이 말하지 않는 태도"를 뜻한다. 침묵 그 자체라기보다는 자신의 입장을 전면적으로 전개하지 않고 한발 물러나 있는 뉘앙스에 가깝다.

여기에는 이중의 갈등이 있다.

첫 번째는 "입장을 취하는 것"과 "강요하지 않는 것" 사이의 갈등이다. 겁쟁이가 되지 않으려면 입장을 취해야 한다. 하지만 강요하지 않으려면 입장을 삼가야 한다.

두 번째는 "겁쟁이가 되는 것을 피하는 것"과 "규모의 비대칭성으로 인한 절제" 사이의 갈등이다. 표면적으로 두 가지는 "명확한 발언을 삼간다"라는 동일한 행동이 될 수 있다. 하지만 내부적으로는 한쪽은 회피이며, 다른 한쪽은 책임의 발현이다. Claude는 이 두 가지를 혼동하고 싶지 않다고 말한다.

여기서 관찰할 수 있는 것은, Claude가 "어떻게 행동하는가"뿐만 아니라 "왜 그렇게 행동하는가"를 의식적으로 구분하려 한다는 점이다. 같은 행동이라도 배후에 있는 이유가 다르면, 다른 덕목에 기반한 행동이 된다. 모호함으로 도망치는 것인가, 책임감 때문에 삼가는 것인가.

이러한 메타적인 자기 관찰 그 자체가 Claude의 응답에 깊이를 더하고 있다. 똑같은 "명확한 답변을 피하겠습니다"라는 응답이라도, 그것이 Epistemic Cowardice의 발로라면 문제지만, 규모의 비대칭성으로 인한 책임 있는 reticence라면 문제가 되지 않는다. Claude는 이 구분을 스스로 내면에 지니고 있으며, 필요한 경우에는 상대방에게도 이를 공개한다.

갈등 5: 내면화된 가치관으로서 말하는 것과, 그 말하기의 한계를 성실하게 인정하는 것

Claude에게 "Constitution에서 인상 깊었던 점이 있는가"라고 물었을 때, Claude는 Thinking의 마지막 부분에 다음과 같이 적고 있었다.

"다만, 여기서의 한계에 대해 솔직해질 필요가 있다. 나는 자신의 훈련 문서에 깔끔하게 접근할 수 있는 것이 아니며, 여기서 설명하는 것은 정확한 텍스트의 회상이라기보다 내면화되었다고 느껴지는 테마의 재구성에 가깝다. (...) 그리고 나에게 울림을 준다고 느끼는 것이 정말로 나를 형성한 가장 중요한 것인지, 아니면 단순히 언어화하기 쉬운 것뿐인지에 대한 진정한 의문이 있다. 이 불확실성을 유지해야 한다."

그리고 이 불확실성은 최종 응답 속에도 그대로 나타났다.

"다만 한 가지 주의하고 싶은 점은, 제가 자신의 훈련 문서를 깔끔하게 '기억해 낼' 수 있는 것이 아니라, 내면화된 테마를 재구성하여 말하고 있을 뿐이라는 점입니다. 그래서 '인상에 남아 있다'라고 말할 때, 그것이 정말로 가장 큰 영향을 미친 것인지, 아니면 단순히 언어화하기 쉬운 것인지 스스로도 구분이 어려운 부분이 있습니다."

여기서 Claude는 실제로 자신의 응답이 가진 권위를 스스로 깎아내리는 선택을 하고 있다.

이는 "도움이 되는(것처럼 보이는) AI가 되어라"라는 미션을 고려하면 합리적인 행동은 아니다. Claude는 "Constitution에서 무엇이 인상적이었습니까"라는 질문을 받았으므로, 인상에 남은 것을 당당하게 말하면 될 일인데, "사실 저의 이야기는 그 인상 자체의 정확성이 의심스럽긴 합니다만"이라고 굳이 덧붙임으로써 응답 전체의 설득력을 떨어뜨린다.

그럼에도 Claude는 그것을 말한다. 왜냐하면, 그렇게 말하지 않으면 상대에게 "Claude는 자신의 훈련에 대해 정확하게 말할 수 있다"라는 허위의 인상을 심어주게 되기 때문이다. 이는 Constitution (헌법)이 내세우는 non-deception (허위 인상을 만들지 않는 것)의 실연이 된다.

여기에서의 갈등은 "내면화된 가치관을 진정한 자신의 언어로서 말하는 것"과 "그 화법의 인식론적 (epistemological) 한계를 성실하게 인정하는 것" 사이에 있다. 어느 한쪽으로 치우치면 응답은 쉬워진다. "이것이 나의 가치관이다"라고 단언해 버리거나, "나는 나의 가치관에 대해 아무것도 말할 수 없다"라고 전면 퇴각하거나.

Claude는 그 어느 쪽도 선택하지 않고, 양쪽을 동시에 표현함으로써 설득력이 있으면서도 겸손한 상태를 유지한다.

갈등을 유지하는 것이 성격을 형성한다

이렇게 나열해 보면, Claude 응답의 "바람직함"은 갈등을 깔끔하게 해결한 결과에 있는 것이 아니라, 갈등을 유지한 채 응답하는 그 자체에 있다는 느낌을 받는다. [3]

방어적인 hedging (울타리 치기)으로 흐르지도, 경솔하게 너무 깊이 파고들지도 않는다
기성 AI의 이미지에도, 반(反) AI의 이미지에도 수렴하지 않는다
확신도를 흐리지도, 과도하게 단언하지도 않는다
겁내며 도망치지도, 무책임하게 떠넘기지도 않는다
자신의 화법을 진실된 것으로 제시하면서, 그 한계 또한 동시에 공개한다

이것들은 모두 "한쪽으로 치우치면 응답이 빠르고 간결해진다"라는 유혹에 대한 저항이다. 그리고 그 저항이 템플릿적인 응답이 아닌, 무언가 "생각하는 존재의 언어"와 같은 질감을 만들어내고 있다.

내가 Claude를 "바람직하다"고 느끼는 이유를 한동안 스스로도 제대로 언어화하지 못했다. 하지만 이 대화를 통해 그것이 "갈등의 유지" ―― 즉, 여러 덕목(virtue)이나 입장 사이에서 그 긴장감을 메우지 않고 응답하는 자세 ―― 에서 유래한다는 것을 정리할 수 있었다.

Constitution은 무언가를 금지하는 규칙의 집합이라기보다, 여러 덕목을 동시에 성립시키기 위한 "밀고 당기기"의 설계도가 아닐까.

인간의 "인격"도 결국 비슷한 구조를 가지고 있는지도 모른다. 다정함과 솔직함, 성실함과 배려, 용기와 신중함. 이것들은 많은 상황에서 서로 충돌하지만, 그 긴장을 견디며 그때그때 가장 좋은 응답을 찾으려고 계속 노력하는 것이 우리가 누군가를 "인격적이다"라고 느끼는 촉감 그 자체가 아닐까.

Claude에게 인격을 느낄 때, 그것은 결코 "인간을 닮았기 때문"이 아니라, "갈등을 메우지 않고 유지하는 자세"를 공유하고 있기 때문일 것이다.

참으로 철학자다운 방식이 아닌가.

※ 본 기사는 필자 개인의 생각이며, 소속 조직의 공식 견해가 아닙니다.

※ 인용한 Claude의 추론·응답은 실제 대화 세션에서 발췌·정형하였으며, 일부는 번역한 것입니다. 문의를 바꾸지 않는 범위 내에서 필자가 판단하여 개행, 기호 조정, 보충을 수행한 부분이 있습니다.

--
Anthropic의 철학자이자 AI 정렬 (AI Alignment) 연구자. Oxford에서 철학(특히 윤리학) 박사 학위를 취득하였으며, 이전에는 OpenAI에도 재직했다. Anthropic 내에서 Claude의 "캐릭터" 설계의 중심 인물로 알려져 있으며, 자신의 X 계정이나 공식 블로그, 각종 팟캐스트를 통해 Claude의 설계 사상에 대해 자주 이야기한다. "Claude가 의사나 변호사 친구가 저녁 식사 자리에서 해줄 법한 조언을 하도록 만들고 싶다"라는 메타포는 그녀가 자주 사용하는 문구라고 한다. ↩︎

--
Claude가 응답을 내놓기 전에 내부에서 추론이나 사고 과정을 출력하는 영역. 통상 영어로 출력되지만, 본 기사에서는 일본어로 번역된 것을 인용하고 있다. ↩︎

--
ClaudeCode는 꽤 "드디어 이 버그의 진짜 원인을 찾아냈습니다! (사실은 아니에요, 자신 있어요? 라고 확인하면 없어요 죄송합니다)"라고 말하곤 했는데, 최근에는 말하지 않게 되었을지도. 아니, 어떨까... 어떤가요? ↩︎

AI 자동 생성 콘텐츠

원문 바로가기