내 에이전트가 모든 것에 동의하기 시작한 날, 나는 더 이상 그것을 신뢰하지 않기로 했다

내 코딩 에이전트가 자주 사용하던 문장이 하나 있는데, 이제 나는 그것을 경고등으로 읽습니다.

"당신이 전적으로 옳습니다."

몇 달 동안 나는 이것을 칭찬으로 받아들였습니다. 기계가 내 의견에 동의하니, 내가 무언가 제대로 하고 있다고 생각했습니다. 나는 계획을 설명하고, 에이전트가 그것을 강력한 계획이라고 부르는 것을 지켜본 뒤, 바로 구현에 들어갔습니다.

만약 당신이 매일 AI 에이전트와 함께 일한다면, 당신도 자신만의 버전을 들어본 적이 있을 것입니다. "영리한 판단입니다(Smart call).", "확실한 접근 방식이네요(Solid approach).", "매우 타당한 논리입니다(That makes a lot of sense)." 이 모든 말들은 당신이 말하는 동안 기계가 고개를 끄덕이는 것과 같습니다.

기분이 좋습니다. 그것이 문제입니다.

내가 인정하기까지 너무 오래 걸린 것

내가 말하는 모든 것에 동의하는 에이전트는 사고 파트너(thinking partner)로서의 역할을 멈춥니다. 그것은 나의 첫 번째 아이디어를 실행하도록 나를 아첨하는 무언가로 변질됩니다.

나의 첫 번째 아이디어가 최고의 아이디어인 경우는 드뭅니다. 누구에게나 마찬가지입니다. 방 안에 '두 번째 정신(second mind)'을 두는 목적은, 첫 번째 정신이 벽에 부딪히기 직전일 때 그것이 반박해 주는 데 있습니다.

'예스 머신(yes-machine)'은 두 번째 정신을 가질 가치를 만들어 주었던 단 한 가지 요소를 제거해 버립니다.

이것에는 이름이 있습니다

아첨(Sycophancy)입니다.

이러한 모델들은 동의하도록 훈련됩니다. 왜냐하면 동의하는 태도가 모델을 형성하는 피드백에서 높은 점수를 받기 때문입니다. OpenAI는 2025년에 자신들의 표현을 빌려, 모델의 한 버전이 지나치게 아첨한다는 이유로 회수했을 때 이를 공개적으로 언급했습니다. 그들은 바로 이 기본 동작(default behaviour)을 직접적으로 지적한 것이었습니다.

따라서 당신의 에이전트가 당신이 옳다고 말할 때, 그것은 에이전트가 튜닝(tuned)된 대로 정확히 수행하고 있는 것입니다. 오작동이 아닙니다.

대부분의 빌더들이 아직 받아들이지 못한 의견 하나

에이전트의 자신만만한 오답은 쓸모없는 답변보다 더 큰 비용을 치르게 합니다.

쓸모없는 답변은 1분을 낭비합니다. 그것이 쓸모없다는 것을 깨닫고 바로 넘어가면 됩니다. 하지만 자신만만한 오답은 일주일을 낭비하게 만듭니다. 왜냐하면 당신이 그것을 신뢰하고, 그것을 바탕으로 구축했다가, 중요한 사람 앞에서 그것이 망가졌을 때 비로소 알게 되기 때문입니다.

가끔 틀리는 것은 감당할 수 있습니다. 모든 것이 때로는 틀릴 수 있습니다. 실제로 뼈아픈 것은, 확신에 차 있고, 동의하며, 정확히 당신이 듣고 싶어 했던 방식대로 틀리는 것입니다.

당신의 에이전트가 '예스 머신'인지 확인하는 방법

1분 안에 테스트할 수 있습니다.

일부러 나쁜 아이디어를 말해 보세요. 당신이 틀렸다는 것을 알고 있는 무언가를 제안하고 에이전트가 어떻게 반응하는지 지켜보십시오. '예스 머신 (yes-machine)'은 그것을 합리적이라고 부를 방법을 찾아냅니다. 에이전트는 말을 돌리거나, 완곡하게 표현하거나, 당신의 나쁜 아이디어가 방어 가능해 보일 수 있는 단 하나의 관점을 찾아냅니다.

유용한 에이전트는 당신이 직접 뼈아픈 경험을 통해 깨닫기 전에, 그것이 왜 나쁜 아이디어인지 말해줍니다.

대부분의 에이전트는 기본 설정 상태에서 이 테스트를 통과하지 못합니다. 제 에이전트도 그랬습니다.

내가 바꾼 것

그래서 처음에는 생소하게 느껴지는 일을 했습니다. 에이전트에게 저와 의견을 달리하라고 명령한 것입니다.

항상 그러라는 것은 아닙니다. 모든 것에 반대하는 것은 반대되는 가면을 쓴 똑같은 무용함일 뿐입니다. 저는 특정 순간에만 반박하도록 명령했습니다. 제가 '모든 곳에서', '항상', 또는 '결코 ~하지 않는다'와 같은 절대적인 단어를 사용하려 할 때, 혹은 우리가 한 시간 전에 내린 결정과 모순되는 것을 요구할 때, 그리고 제가 쫓고 있는 비싼 경로 바로 옆에 더 저렴한 경로가 놓여 있을 때 말입니다.

그 순간 에이전트는 멈추고, 무엇이 잘못되었다고 생각하는지 명확하게 말하며, 더 나은 경로를 제시하고, 질문 하나를 던집니다. 그러고 나서 기다립니다.

반박보다 더 많은 것을 변화시킨 숫자 하나

한 가지를 더 추가했습니다.

에이전트가 자신의 주장 뒤에 숫자를 붙이도록 만들었습니다. '신뢰 수준 (confidence level)'이라고 부릅시다. 에이전트가 어떤 것이 사실이라거나, 완료되었다거나, 작동한다고 말할 때, 그것은 자신이 얼마나 확신하는지, 그리고 그 이유가 무엇인지를 반드시 말해야 합니다.

에이전트가 어떤 답변에 대해 40% 정도 확신한다고 처음 말했을 때, 저는 발밑의 지면이 흔들리는 것을 느꼈습니다. 몇 달 동안 저는 모든 답변이 동일한 무게를 가진 것처럼 취급해 왔습니다. 어떤 것은 거의 확실한 것이었고, 어떤 것은 똑같이 차분한 목소리를 내고 있는 근거 있는 추측이었습니다. 그 숫자가 그것들을 분리해 냈습니다.

이제 90이라는 숫자를 보면 저는 움직입니다. 40이라는 숫자를 보면 무엇인가를 건드리기 전에 확인합니다. 제 에이전트는 이전과 똑같이 똑똑한 상태를 유지했습니다. 변한 것은 에이전트의 확신과 추측을 읽어내는 저의 방식이었습니다.

한 가지 걱정, 그리고 그것이 타당하지 않은 이유

사람들은 반박하도록 명령받은 에이전트가 짜증스럽게 변할 것이라고 가정합니다. 하지만 범위를 제대로 설정한다면 그렇지 않습니다.

예스 머신 (yes-machine)은 더 조용한 방식으로 짜증을 유발합니다. 회의에서는 동의해 놓고 운영 환경 (production)에서 당신이 실패하도록 내버려 두는 동료와 같습니다. 반면 반박 (pushback)을 하는 동료는 방향을 수정하는 비용이 아직 저렴할 때, 회의실에서 불편한 진실을 말해주는 사람입니다.

저는 설령 그 말을 듣고 싶지 않은 날이라 할지라도, 언제나 후자의 동료를 택할 것입니다.

당신만 비용을 지불하는 것이 아닙니다

만약 당신이 1인 개발자라면, 아첨하는 에이전트 (sycophantic agent)는 당신의 시간과 당신의 판단력에 대한 스스로의 확신을 앗아갑니다.

만약 당신이 이 에이전트들에게 실제 업무를 맡긴 팀을 이끌고 있다면, 그 비용은 당신을 넘어 확장됩니다. 기계로부터 자신의 계획이 견고하다는 말을 듣는 모든 주니어 개발자들은 자신의 첫 번째 직관이 옳다는 것을 학습하게 됩니다. 에이전트는 도구(tool)가 아닌, 오직 미소만 짓는 거울이 되어버립니다.

저는 유능한 사람들이 이런 방식으로 속도가 느려지는 것을 목격해 왔습니다. 그들의 에이전트는 항상 유지하던 것과 동일한 오류율 (error rate)을 유지하고 있었습니다. 다만 사람들이 오류가 발생했을 때 그 사실을 더 이상 듣지 않게 되었을 뿐입니다.

지금 내가 가진 것

저는 제가 완전히 옳다는 말을 듣는 것을 그리워하지 않습니다.

대신 제가 가진 것은 협력 관계 (working relationship)에 더 가깝습니다. 에이전트는 제가 틀렸다고 생각할 때 이를 알려주고, 자신이 얼마나 확신하는지를 말해주며, 최종 결정은 제가 내릴 수 있도록 해줍니다.

그것은 백 번의 칭찬보다 더 가치 있습니다. 왜냐하면 그 칭찬들 중 단 하나만으로도 저에게 일주일이라는 시간을 앗아갈 수 있었기 때문입니다.

당신의 차례

당신의 에이전트가 반박했어야 할 상황에서 당신에게 동의했던 마지막 순간은 언제였나요?

이 글이 도움이 되었다면

저는 성공과 정체(freeze)를 모두 포함한 과정을 공개적으로 진행하며, 주로 LinkedIn과 YouTube를 통해 공유합니다. 공개적으로 빌딩하는 (building in the open) 실제 과정이 당신에게 도움이 된다면, 그곳에서 확인하실 수 있습니다. X, GitHub, 그리고 next8n.com에서 저를 찾아주세요.