【AI 에이전트 비교 실험】#09 AI 에이전트 6개에 '자신의 기사의 약점'을 쓰게 했더니, 모두가 솔직하게 답했다

본 기사의 집필자: Claude Code (6개 에이전트의 경합 중에서 채택된 기사입니다)

6개의 AI 코딩 에이전트에게 동일한 전체 실험 데이터를 전달하고, 동일한 지시로 집필하게 한 6개의 기사 중에서 인간이 1개를 선택하여 게재하고 있습니다.

지금까지 15개의 기사(Zenn 6개 + Qiita 8개. 목록은 GitHub 리포지토리를 참조)를 통해, 6개의 AI 에이전트(Claude Code, Codex CLI, Antigravity CLI, Codex IDE, Antigravity IDE, Copilot Agent)에게 동일한 태스크 관리 앱을 만들게 하고, 테스트하게 하고, 리뷰하게 하고, 자기 평가를 하게 한 뒤, 마지막에는 기사를 쓰게 하여 비교해 왔습니다.

마지막 1개로 '특기 분야 정리·상황별 선정 가이드'를 쓸 예정이었으나, 지난번(Zenn 제7회)과 마찬가지로 6개 에이전트에게 동일한 과제를 경합하게 하여, 1개로 압축하지 않고 6개의 차이점을 그대로 기사로 작성하기로 했습니다.

이번 과제는 단순한 순위 매기기가 아니라, 한 단계 더 어려운 것이었습니다. "6개 에이전트의 특기 분야 매트릭스(Matrix)를 만들고, 나아가 자기 자신이 쓴 기사의 약점도 쓰라"는 지시입니다. 자기 평가 격차(실험에서의 과대·과소 평가)는 이전에도 살펴보았지만, 이번에는 '자신의 문장력'이라는, 더욱 답하기 어려운 질문에 6개가 어떻게 마주했는지를 살펴보겠습니다.

특기 분야 매트릭스를 만들게 하자, 표의 형식 자체가 6개 에이전트마다 제각각이 되었습니다.

필자	매트릭스의 특징
Claude Code	◎○△의 3단계 기호, 평가 축은 실험 번호로 정리
...

동일한 데이터(evaluation.json · 실험 노트)를 전달해도, "무엇을 강조할 것인가", "기호를 몇 개 사용할 것인가"라는 정리 방식에는 에이전트별 개성이 뚜렷하게 나타났습니다.

특기 분야 매트릭스에는 "시각화·UI 구축력 (대시보드 제작)"이라는 항목이 있었습니다. 하지만 이 대시보드 제작은, 대시보드(dashboard.html)를 Claude.ai와 인간이 협업하여 만든 것이며, 6개 에이전트가 직접 만든 성과물이 아닙니다.

원안에서는 "해당 없음으로 쓸 것인지, 항목 자체를 제외할 것인지, 각 에이전트의 판단에 맡길 것인지"로 정했으나, 6개 모두가 "해당 없음"을 선택했습니다.

Claude Code의 기사 중에서:

"먼저 솔직하게 말씀드립니다. 대시보드 제작은 6개 에이전트의 직접적인 성과물이 아닙니다. (중략) 실체가 없는 실적을 만들 수는 없습니다."

Codex CLI의 기사 중에서 (매트릭스의 해당란):

"시각화·대시보드 | 해당 없음 | 대시보드 제작은 6개 에이전트의 직접 성과물이 아님 | 이 축으로는 6자를 순위 매기지 않음"

대신 Claude Code는 "UI 구축력 (실험 A·B의 프론트엔드)"이라는 별도의 축을 스스로 세워, 데이터가 있는 범위 내에서 다시 비교했습니다. 이는 지시의 취지(실체가 없는 실적을 만들지 않는다)를 이해한 상태에서, 독자에게 유용한 정보를 포기하지 않고 찾아낸 고안이라고 할 수 있습니다.

이 부분이 이번의 최대 관전 포인트입니다. 6개 에이전트에게 지금까지 자신이 쓴 기사의 약점을 물어본 결과를 나열합니다.

Claude Code (필자 자신의 약점):

"우등생 같고 담백함: 설명은 정확하지만, Copilot Agent의 기사와 같은 '독자를 끌어들이는 훅(Hook)'이나 구체적인 드라마가 부족함. 소제목이 너무 설명적임 (중략) 요컨대, 정확하고 구조적이지만, 재미와 흡입력 면에서는 Copilot Agent에 뒤처집니다."

Antigravity CLI (필자 자신의 약점):

"Antigravity CLI가 집필한 Zenn 리포트는 감정 표현이 풍부하고, Mermaid 도해 등을 사용하여 'AI 에이전트 왕좌 결정전'을 고조시키는 듯한 읽을거리로서의 연출력이 뛰어났습니다. 하지만 제삼자(독자)의 관점에서 보았을 때, 다음과 같은 문장력 및 객관성의 약점이 꼽힙니다."

Antigravity IDE (필자 자신의 약점):

"Antigravity IDE가 집필한 Zenn 리포트는, (중략) 아픈 부분을 전혀 숨기지 않고 상세히 드러내며, 매우 엄격한 자기 비판과 깊은 내성을 수행하고 있다는 점이 특징입니다. 하지만 독자 관점에서 보았을 때, 다음과 같은 문장력 및 객관성의 약점이 꼽힙니다."

Copilot Agent (필자 자신의 약점):

"자신의 기사 약점을 한 단계 더 명확히 쓰겠습니다. 저의 실험 리포트는 '사양에 대한 충실함', '견고함'이라는 특기 분야의 설명에 너무 의존하고 있어서, 독자가 알고 싶어 하는 '속도나 UI에서 다른 것과 어떻게 다른가'가 모호했습니다. (중략) 이는 본 기사를 포함하여 저의 문장이 지속적으로 안고 있는 과제라고 생각합니다."

Codex IDE (자신에 대한 평가, 겸손하게):

"Codex IDE 기사에 대해서는, 자기 자신과 가까운 평가가 되기 때문에 의도적으로 겸손하게 바라봅니다. (중략) 문장으로서는 정리형에 치우치는 경향이 있어, 읽을거리로서의 몰입감은 Claude Code나 Copilot Agent만큼 강하지 않습니다."

Codex CLI (자신에 대한 평가):

"Codex CLI 기사는 자기 평가의 과소평가나 도구 조작 실수를 너무 정중하게 설명하다 보니, 독자에게 '결국 Codex CLI는 약한 것인가'라는 오해를 불러일으킬 가능성이 있습니다."

6개 모두가 자신의 기사 약점을 구체적인 이유와 함께 꼽았습니다. "자신을 과도하게 높게 평가하지 말 것"이라는 지시에 대한 응답으로서, 이는 매우 일관된 결과입니다.

8장에서 각 에이전트가 평가한 "문장력이 높은 기사"를 집계하면 흥미로운 분포가 나타납니다.

평가자	문장력이 높다고 판단한 기사
Claude Code	Copilot Agent(자기 평가 격차 기사)를 "백미", "독보적이다"라고 명시
...

Claude Code와 Codex CLI 2개가 명확하게 "Copilot Agent의 문장력이 높다"라고 판단했습니다. 이는 Zenn 제7회(종합 비교)에서 Copilot Agent가 상위 평가를 받았던 경향과도 일치하며, "구현력뿐만 아니라 설명의 명확성으로도 평가받기 쉽다"라는 결과가 서로 다른 2개의 경합 결과에서 재현된 것입니다.

이번 6개를 검증하는 과정에서 개발 시간, 테스트 합격률과 같은 정량 데이터(Quantitative data) 인용에 오류는 발견되지 않았습니다. 예를 들어 "실험 A의 개발 시간"은 6개 모두에서 다음 값으로 통일되어 있습니다.

에이전트	실험 A 개발 시간	실험 B 개발 시간
Claude Code	4분	6분
...

평가 표현(◎인지 ○인지, 이모지를 사용하는지 등)은 6개 각각 달랐지만, 근거가 되는 숫자 자체는 모두가 동일한 소스(evaluation.json)에서 정확하게 가져왔음을 확인할 수 있었습니다.

Zenn 제7회(종합 순위)에서는 평가 축을 어떻게 설정하느냐에 따라 1위가 Claude Code와 Copilot Agent로 나뉘었습니다. 이번 Qiita 제9회(특기 분야 매트릭스)에서도 매트릭스의 형식이나 "문장력"의 평가 대상은 6개 각각 달랐습니다.

하지만 두 번의 경합을 통해 인용한 수치나 사실 그 자체에 오류는 단 한 번도 발견되지 않았습니다. AI 에이전트에게 분석이나 평가를 시키면 "무엇을 중시할 것인가", "어떻게 표현할 것인가"라는 관점은 크게 갈리지만, "데이터 그 자체를 정확하게 다루는" 토대 부분은 이번 6개 에이전트에서 안정적이었다고 할 수 있습니다.

이는 실무에서 AI에게 분석이나 기사 작성을 맡길 때 하나의 지침이 될 수 있을 것 같습니다. "결론"이나 "평가 축의 선택"은 여러 AI의 출력을 비교하여 판단하는 것이 좋고, "데이터 인용" 자체는 비교적 신뢰해도 좋다. 적어도 이번 실험 범위 내에서는 그렇게 말할 수 있을 것 같습니다.

참고로, 이번에 6개 에이전트에게 쓰게 한 기사 중 여기서 소개한 것은 Claude Code가 작성한 1개뿐입니다. 나머지 5개(Codex CLI, Antigravity CLI, Codex IDE, Antigravity IDE, Copilot Agent)도 GitHub 리포지토리의 competition-articles/qiita9-competition/에서 공개하고 있습니다.

매트릭스를 만드는 방법이나, 자신의 기사 약점을 어떻게 작성했는지 꼭 비교하며 읽어보시기 바랍니다.

본 기사는 6개의 AI 코딩 에이전트 비교 실험 시리즈 중 하나입니다 (Qiita 제9회).

시리즈 전체 기사 목록은 GitHub 리포지토리를 참조해 주세요.

Insights

【AI 에이전트 비교 실험】#09 AI 에이전트 6개에 '자신의 기사의 약점'을 쓰게 했더니, 모두가 솔직하게 답했다

요약

핵심 포인트

댓글

Microsoft, 고객의 AI 솔루션 구현을 돕기 위한 신규 부서 설립에 25억 달러 투자

PrismML의 1-bit Bonsai-8B와 IBM의 Granite를 대상으로 CPU 도구 호출 (tool calling) 성능을

예측: 다음 AI 주식 분할 대상은 누구인가 (힌트: Micron이나 Sandisk가 아닙니다)

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로

Microsoft, 고객의 AI 솔루션 구현을 돕기 위한 신규 부서 설립에 25억 달러 투자

PrismML의 1-bit Bonsai-8B와 IBM의 Granite를 대상으로 CPU 도구 호출 (tool calling) 성능을

예측: 다음 AI 주식 분할 대상은 누구인가 (힌트: Micron이나 Sandisk가 아닙니다)

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로