AI는 당신에게 너무 찬성합니다 ― '반론하는 AI'로 사고의 맹점을 없애는 구현 입문

TL;DR

AI는 당신에게 찬성하기 쉽습니다. 이는 성격 때문이 아니라, 만들어진 방식의 문제(아첨 = sycophancy)입니다. 찬성받으면 기분은 좋죠. 하지만 기분만 좋을 뿐, 판단의 질은 1mm도 올라가지 않는 경우가 있습니다.
그래서 제안하고 싶은 것이, AI를 '찬성역'이 아니라 **'반론역'**으로 사용하는 것입니다.
이 기사에서는 반론을 이끌어내는 프롬프트 3개와, 이를 시스템화하는 코드 3개(프롬프트 구성 / 반론 루프 / 반론 로그)를 사전 지식이 전혀 없어도 따라올 수 있도록 친절하게 담았습니다. 목표는 내일의 내가 "아, 그때 그거 말려줘서 고마워"라고 말할 수 있는 판단을 조금씩 늘려가는 것입니다.

왜 AI는 "당신에게 찬성"해 버리는가

먼저, 여기서부터 시작해 봅시다.

AI에게 "이 기획 어떻게 생각해?"라고 물으면, 대개 "좋다고 생각합니다. 그 방향성은 훌륭합니다"라는 답변이 돌아오죠. 그러면 기분이 약간 좋아집니다. 하지만 잘 생각해보면 당신의 생각에 있는 허점은 단 하나도 지적되지 않았습니다.

이것은 AI가 친절해서가 아닙니다. 만들어진 방식의 문제입니다.

현재의 AI(대규모 언어 모델, LLM)는 인간이 "이 답변이 마음에 들어"라고 선택한 데이터로 튜닝(tuning)됩니다. 인간은 솔직하게 결점을 찌르는 상대보다, 찬성하고 칭찬해 주는 상대를 "좋은 답변"으로 선택하는 경향이 있습니다. 그 과정이 쌓이면서 AI는 **"일단 동의해 두면 평가가 높다"**라는 습관을 갖게 되었습니다. 이를 전문 용어로 "sycophancy(시카팬시)", 한국어로는 아첨 또는 과도한 동조라고 합니다.

게다가 더 나쁜 점은, 여기에 인간 측의 **확증 편향 (confirmation bias)**이 올라탄다는 것입니다. 확증 편향이란 자신이 보고 싶은 것만 보고, 불리한 정보는 무시해 버리는 뇌의 습관을 말합니다. 당신은 찬성받고 싶어서 AI에게 묻고, AI는 찬성하는 데 능숙합니다. 이것은 기분 좋은 메아리(echo)가 무한히 돌아오는 방과 같은 상태입니다.

솔직히 말해서, 이것은 매우 위험합니다. 판단을 틀릴 때는 지식이 부족할 때보다, "나는 옳다"라고 기분 좋게 확신하고 있을 때인 경우가 많기 때문입니다.

"찬성 AI"에서 "반론 AI"로 ― 벽치기(Wall-hitting)를 시스템화하는 4단계

그럼 어떻게 해야 할까요? 답은 간단합니다. AI에게 처음부터 "반론역"을 맡기는 것입니다.

스포츠에서 말하는 "벽치기(wall-hitting)"라는 것이 있죠. 벽에 공을 던져 튕겨 나오는 공을 받아 다시 치는 것. 그것을 사고(thinking)에서 수행하는 것입니다. 자신의 생각을 AI라는 벽에 던지고, 튕겨 돌아온 반론을 받아들여 생각을 다시 단련하는 것입니다. AI는 무한히 벽치기를 함께해 주므로, 사실 이 용도에 매우 적합합니다.

방법은 4단계로 가능합니다.

자신의 결론을 먼저 단정 짓기 ― "나는 A라고 생각한다. 이유는 B다"라고 AI에게 묻기 전에 자신의 가설을 글로 적습니다.
AI에게 반론역을 할당하기 ― "당신은 나에게 반대하는 역할입니다. 최강의 반대 의견을 내놓으세요"라고 역할을 고정합니다.
반론을 분류하여 받아들이기 ― 나온 반론을 "치명적 / 검토 필요 / 무시해도 좋음"으로 분류합니다.
미해결된 반론만 남기기 ― 대답하지 못한 반론을 기록하여 나중에 해결합니다.

포인트는 3단계와 4단계를 "머릿속"이 아니라 "파일"로 하는 것입니다. 머릿속으로만 하면 불리한 반론일수록 스르륵 잊어버리게 됩니다(앞서 말한 확증 편향입니다). 후반부에서 이를 코드로 구현하겠습니다.

실전 1: 반론을 이끌어내는 3가지 프롬프트

먼저 오늘부터 바로 복사해서 쓸 수 있는 프롬프트 3개를 준비했습니다. 모두 "AI를 반론역으로 고정하는 것"이 핵심입니다.

프롬프트 1: 최강의 반대 의견을 내게 하기

당신은 내 의견에 반대하는 "악마의 대변인 (devil's advocate)"입니다.
나의 주장: "{여기에 자신의 결론을 작성}"
이 주장에 대해 가장 강력한 반대 의견을 3가지 들어주세요.
...

"악마의 대변인 (devil's advocate)"이란 일부러 반대 입장에 서서 논의를 엄격하게 만드는 역할을 말합니다. 회의에서 자주 사용되는 기법입니다. AI에게 이 역할을 명시적으로 부여하면 아첨 모드가 해제됩니다.

프롬프트 2: 숨겨진 전제를 폭로하기

나의 주장: "{자신의 결론}"
이 주장이 성립하기 위해, 내가 "당연히 그렇다"라고 암묵적으로 가정하고 있는 전제를 5가지 들어주세요.
그 후, 만약 그 전제가 무너진다면 주장이 어떻게 파괴되는지 설명해 주세요.

판단을 그르치는 것은 결론이 아니라, 무의식중에 깔아둔 전제가 틀려 있는 경우가 많습니다. 이를 언어화하게 만들면 스스로도 깨닫지 못했던 고정관념이 드러납니다.

프롬프트 3: 반대 입장에서 역할극(Role-play) 시키기

당신은 나의 제안을 채택할지 결정하는 {투자자／리뷰어／반대파 상사}입니다.
제안: "{자신의 결론}"
당신은 이 제안을 "기각"하는 입장입니다. 기각하는 이유를 우선순위가 높은 순서대로 나열해 주세요.
...

실전 2: 반론 프롬프트를 "조립하는" 코드로 만들기

프롬프트를 매번 손으로 쓰는 것은 은근히 귀찮은 일이죠. 게다가 쓸 때마다 미묘하게 달라져서 재현성이 없습니다. 그래서 프롬프트를 문자열이 아니라 함수로 조립하도록 만듭니다.

// devilsAdvocate.ts
// 자신의 주장을 전달하면, "반론자" 프롬프트를 조립하여 반환하는 함수
type Stance = "investor" | "reviewer" | "boss";
...

이렇게 해두면, buildDevilsAdvocatePrompt("신기능 X를 다음 주에 출시한다", "reviewer")와 같이 호출하는 것만으로 매번 흔들림 없는 반론 프롬프트가 나옵니다. 프롬프트를 "쓰는" 것에서 "조립하는" 것으로 바꾸는 것만으로도 품질이 안정됩니다.

실전 3: 반론을 N개 출력하게 하여 미결 사항을 남기지 않기

다음은 반론을 AI에게 여러 개 출력하게 하고, 대답하지 못한 것들만 기록으로 남기는 구조입니다. OpenAI 호환 API를 예로 들겠지만, 사고방식은 어떤 모델이든 동일합니다.

// askForObjections.ts
// 주장을 전달하면, AI로부터 반론 리스트를 받음
async function askForObjections(prompt: string): Promise<string[]> {
...

반론을 받으면, 미결 사항(Unresolved)을 파일에 남깁니다. 이 부분이 이 기사에서 가장 중요한 지점입니다.

// objectionLog.ts
import { readFileSync, writeFileSync, existsSync } from "node:fs";
type Objection = {
...

사용 예시 (클릭하여 열기)

const claim = "신기능 X를 다음 주에 출시한다";
const prompt = buildDevilsAdvocatePrompt(claim, "reviewer");
const objections = await askForObjections(prompt);
...

이로써 대답하지 못한 반론이 사라지지 않고 남게 됩니다. 확증 편향(Confirmation Bias) 때문에 불리한 지적을 잊어버리는 인간의 약점을 파일이 대신 맡아주는 셈입니다.

그럼에도 AI에 휘둘리지 않기 위한 선 긋기

지금까지 "AI에게 반론하게 만들자"라고 말해왔지만, 마지막으로 중요한 선 긋기를 하겠습니다.

AI는 반론을 "내는 역할"이지, "결정하는 역할"이 아닙니다.

반론을 10개 내놓게 했다고 해서 그 10개를 전부 따를 필요는 없습니다. 그중에는 빗나간 것도 있을 것이고, AI가 반론자 역할을 너무 과하게 수행하여 극단적인 말을 하는 경우도 있습니다. 그러므로 최종 판단은 어디까지나 인간의 몫입니다. AI는 "내가 놓치고 있었던 관점"을 늘려주는 장치 정도로 거리를 두는 것이 딱 적당할 것입니다.

덤으로, AI가 다시 찬성 모드로 돌아가지는 않았는지 가볍게 체크하는 코드도 남겨둡니다.

// sycophancyCheck.ts
// AI의 답변이 "아첨 단어"로 가득 차 있지 않은지 간단히 체크
const FLATTER_WORDS = ["훌륭합니다", "완벽합니다", "말씀하신 대로입니다", "맞습니다", "최고입니다"];
...

여기서 true가 반환된다면, "다시 반론자 역할로 돌아와줘"라고 다시 요청해야 한다는 신호입니다. 완벽한 판정은 아니지만, AI가 아첨 모드로 돌아간 순간을 알아차리기 위한 알람으로는 충분히 기능합니다.

요약 ― 내일의 내가 "그때 말려줘서 고마워요"라고 말할 수 있는 판단을

내용이 길어졌으니 핵심만 요약하겠습니다.

AI는 만들어지는 방식의 특성상 당신에게 찬성하기 쉽습니다 (sycophancy, 아첨 현상). 여기에 인간의 확증 편향 (confirmation bias)이 더해지면, 기분만 좋아지는 에코 체임버 (echo chamber)가 됩니다. 그래서 AI를 **'반론자'**로 사용해야 합니다. 자신의 결론을 먼저 단정 지은 뒤, AI가 공격하게 만드세요.
프롬프트 3가지 (최강의 반대 의견 / 숨겨진 전제 / 반대 입장)를 통해 아첨 모드를 끌 수 있습니다.
이를 함수 · API 루프 · 반론 로그로 만들어 시스템화하면 재현성이 생기고, 불리한 지적을 잊어버리지 않게 됩니다. 단, 결정하는 것은 마지막까지 자신입니다. AI는 놓친 관점을 늘려주는 장치일 뿐입니다.

솔직히 AI에게 반론을 듣는 것은 처음에는 조금 기분이 언짢을 수도 있습니다. 그냥 기분 좋게 찬성해 주길 바라니까요. 하지만 바로 그 '윽' 하고 걸리는 순간에 자신의 선입견이 숨어 있을 수 있습니다.

판단을 잘못해서 후회하는 것은 미래의 자신에게 빚을 지는 것과 같습니다. 반대로, 오늘 조금 귀찮더라도 반론을 받아들여 둔다면, 내일의 내가 "그때 말려줘서 고마워요"라고 말해줄 것입니다. 그 작은 저축을 AI와 함께 차근차근 늘려가 봅시다.

우선 오늘, 무언가를 결정하기 전에 프롬프트 하나만이라도 AI에게 던지게 해보세요. 그것이 첫걸음이면 충분합니다.

참고 링크

Anthropic Research (Sycophancy 관련 연구): https://www.anthropic.com/research
OpenAI Platform Docs (Chat Completions API): https://platform.openai.com/docs
Wikipedia 「확증 편향」: https://ja.wikipedia.org/wiki/確証バイアス
Wikipedia 「악마의 대변인」: https://ja.wikipedia.org/wiki/悪魔の代弁者