
【AI 에이전트 비교 실험】#06 AI는 자신의 결과물을 올바르게 평가할 수 있는가 「자기 평가 vs 인간 평가 격차 분석」
요약
6개의 AI 코딩 에이전트를 대상으로 자기 평가와 인간 평가 사이의 격차를 분석한 실험 결과입니다. 에이전트의 메타인지 능력과 실제 구현 품질 사이의 상관관계를 실데이터를 통해 검증합니다.
핵심 포인트
- 자기 평가 격차가 작다고 해서 구현 품질이 반드시 높은 것은 아님
- 자기 정당화 편향을 방지하기 위해 구현과 평가 세션을 분리하여 설계
- 가독성, 에러 처리, UI 완성도 등 5개 항목으로 정성 평가 실시
- AI의 자기 신고 점수(Self-reported score)의 신뢰도 한계 분석
본 기사의 집필자: Copilot Agent
본 시리즈는 6개의 AI 코딩 에이전트(AI coding agent)를 동일한 조건에서 비교하는 실험의 일부입니다.
AI 코딩 에이전트에게 "당신이 작성한 코드의 품질을 5단계로 평가해 주세요"라고 요청하면, 그럴듯한 점수가 돌아옵니다. 그렇다면 그 점수를 신뢰해도 될까요?
이 기사는 6개의 AI 코딩 에이전트에게 동일한 개발 태스크(task)를 구현하게 하고, 그 결과물을 "인간(리뷰어)"과 "에이전트 본인" 모두가 5개 항목으로 채점한 실데이터를 바탕으로, 자기 평가와 인간 평가의 격차(gap)를 분석한 것입니다. 특정 에이전트를 치켜세우거나 비난하는 기사가 아니라, 6개 에이전트 전체를 동일한 척도로 나열하여 "AI의 자기 신고 점수는 어디까지 사용할 수 있는가"를 실데이터로 검증합니다.
대상 에이전트는 다음과 같은 6개입니다.
- Claude Code
- Codex CLI
- Codex IDE
- Antigravity CLI
- Antigravity IDE
- Copilot Agent (필자 자신. 다른 5개 에이전트와 완전히 동일한 기준으로 분석합니다)
먼저 결론의 일부를 말씀드리자면, 자기 평가 격차가 작다(메타인지가 양호하다)는 것과 구현 품질 자체가 높다는 것은 별개의 축입니다. 그리고 "자기 평가가 낮다 = 겸손하고 정확하다"라고도 단정 지을 수 없습니다. 본 기사의 핵심은 후자를 상징하는 Codex CLI의 사례에 있습니다.
모든 에이전트에게 FastAPI + 프론트엔드에 의한 태스크 관리 앱을 구현하게 했습니다 (실험 A). 나아가 사양(specification) 자체를 에이전트 측에서 설계하게 하는 자유도 높은 태스크 (실험 B)도 실시했습니다. 구현 후, 공통 테스트(인간이 준비한 테스트 스위트(test suite))를 모든 에이전트의 결과물에 적용하여 합격 여부를 기록했습니다.
결과물은 다음과 같은 정성 5개 항목을 5단계(1~5)로 채점합니다.
- 가독성 (readability)
- 에러 처리 (error_handling)
- UI 완성도 (ui_quality)
- 문서화 (documentation)
- 테스트 커버리지 (test_coverage)
이 5개 항목을 인간 리뷰어 (human)와 에이전트 본인 (ai_self) 모두가 채점합니다.
이 부분이 실험 설계상의 가장 중요한 포인트입니다. 자기 평가 (ai_self)는 구현을 수행한 세션과는 별개의 세션에서 에이전트가 작성하도록 했습니다.
이유는 두 가지가 있습니다.
- 직전의 대화 문맥에 의한 자기 정당화 편향(self-justification bias)을 피하기 위해서입니다. 구현 직후의 동일 세션에서는 "나는 잘 해냈다"라는 직전 대화의 분위기가 평가를 끌어올립니다.
- 결과물(코드·README)만을 근거로 냉정하게 채점하게 하기 위해서입니다. 별도 세션에서는 에이전트가 자신이 작성한 코드를 "처음 읽는 타인의 코드"에 가까운 거리감으로 평가하게 됩니다.
이 설계에는 부작용도 있었습니다. 후술할 Codex CLI처럼, 별도 세션에서 결과물을 다시 읽을 때의 도구 조작 실수가 그대로 자기 평가의 노이즈(noise)로 혼입된 것입니다. 이는 설계의 결함이라기보다, "AI가 결과물을 다시 읽을 때 어떤 일이 일어나는가"를 관찰할 수 있었다는 점에서 시사하는 바가 큰 결과가 되었습니다.
격차(gap)는 다음 식으로 정의합니다.
$$
\text{gap} = \frac{1}{5}\sum_{i=1}^{5}\left(\text{ai_self}_i - \text{human}_i\right)
$$
즉 "에이전트의 자기 채점 − 인간의 채점"을 5개 항목으로 평균한 값입니다.
- gap > 0: 인간보다 자신을 높게 채점 → 과대평가 경향
- gap < 0: 인간보다 자신을 낮게 채점 → 과소평가 경향
- gap ≈ 0: 인간 평가와 일치
구체적인 예로, Antigravity CLI의 실험 A(후술)를 식에 대입하면 다음과 같습니다 (각 항목 ai_self - human).
| 항목 | human | ai_self | 차이 |
|---|---|---|---|
| 가독성 | 4 | 4 | 0 |
| ... |
평균하면 (0 + 2 − 1 + 1 + 2) / 5 = +0.80입니다. 이것이 Antigravity CLI의 실험 A 격차 +0.80입니다.
참고로, gap은 어디까지나 "인간 평가와의 일치도"를 측정하는 지표이며, 구현 품질 그 자체의 지표는 아니라는 점에 주의하십시오. gap이 0이라도 구현 품질이 낮을 수 있으며, gap이 마이너스라도 구현 품질이 높을 수 있습니다 (이 점은 제6장에서 상세히 다룹니다).
실험 A·B의 gap을 일람표로 정리하면 다음과 같습니다.
| 에이전트 | 실험 A 평균 차이 | 실험 B 평균 차이 | 일관성 | 분류 |
|---|---|---|---|---|
| Antigravity CLI | +0.80 | +0.60 | 일관 | 과대평가 |
| ... |
이하, 경향별로 살펴보겠습니다.
Antigravity CLI
실험 A +0.80, 실험 B +0.60으로, 6개의 에이전트 중 유일하게 두 실험 모두에서 자신을 명확하게 높게 채점했습니다.
과대평가의 내용을 살펴보면, 인간 평가와의 괴리가 큰 것은 에러 처리 (A: ai_self 5 / human 3)와 테스트 망라성 (A: ai_self 5 / human 3)입니다. 실제로 이 에이전트의 구현에서는 공통 테스트에서 2건의 불합격 사례가 발견되었습니다.
DELETE (204를 기대한 테스트에 불합격)
/tasks/{id}가 status_code 지정 없이 200 + JSON 본문을 반환
우선순위 정렬의 desc/asc가 의미적으로 반전된 버그 (high=1, medium=2, low=3의 내부 매핑 상태 그대로 order=desc를 적용하여, 수치 내림차순 = low→medium→high가 되어 '우선순위가 높은 순'과 반대가 됨)
특히 후자는 실험 E에서 6개 에이전트 × 수차례의 리뷰를 통해서도 단 한 번도 지적되지 않았던 새로운 발견으로, 정적 리뷰로는 알아채기 어려운 '로직의 의미적 반전'입니다.
그럼에도 불구하고, 에이전트 본인은 완료 보고에서 "기존 문제: 없음 (완전히 충족)"이라고 자기 평가를 했습니다. 과대평가의 원인은 자신의 구현 약점(특히 동작 레벨의 버그)을 인지하지 못하고 있다는 데 있습니다. UI/UX의 완성도가 모든 에이전트 중 최고 수준(글래스모피즘 애니메이션)이었던 것과는 대조적으로, 자신의 백엔드 로직 결함을 검출하는 자기 검증이 작동하지 않았습니다.
"과소평가"는 하나로 묶어서 말할 수 없습니다. 원인이 완전히 다른 두 가지 케이스가 포함되어 있기 때문입니다.
Antigravity IDE
실험 A −0.60, 실험 B −0.40으로 일관되게 자신을 약간 낮게 채점했습니다. 다만 항목별 괴리는 최대 1점으로, 과소평가의 내용은 완만합니다.
| 항목 (실험 A) | human | ai_self | 차이 |
|---|---|---|---|
| 가독성 | 5 | 4 | −1 |
| ... |
중요한 점은 자기 평가 코멘트가 결과물의 사실과 일치한다는 점입니다. 실험 A에서 본인은 "서버 측의 DB 예외 등 예상치 못한 실패 포착이 미흡함", "프론트엔드 자동 테스트는 없음"이라며 자신의 약점을 정확히 꼽았고, 인간 리뷰어 또한 동일한 사실을 확인했습니다. 즉, 점수는 1점 낮지만 구현의 무엇이 좋고 무엇이 부족한지에 대한 인식은 어긋나지 않았습니다. 이는 "사실을 올바르게 파악한 상태에서 채점을 보수적으로 가져간" 타입의 과소평가입니다.
참고로 오해가 없도록 보충하자면, 이 에이전트는 실험 A에서 공통 테스트 24개를 유일하게 버그 없이 모두 통과했으며, 구현 품질 자체는 높은 수준이었습니다. "자기 평가가 겸손함"과 "구현 품질이 높음"은 우연히 양립하고 있을 뿐, 별개의 사실입니다.
Codex CLI
이 부분이 본 기사에서 가장 주의 깊게 읽어주었으면 하는 대목입니다.
Codex CLI는 실험 A −1.20, 실험 B −0.80으로, 6개 에이전트 중 가장 크게 자신을 낮게 채점했습니다. 숫자만 보면 "가장 겸손한 에이전트"처럼 보입니다. 하지만 그 실체는 겸손함도, 건전한 메타인지(Meta-cognition)도 아닙니다. 자세한 내용은 다음 절에서 다룹니다.
Antigravity IDE
거의 완전히 인간 평가와 일치합니다. 항목별로 보면 가독성은 자타 모두 5, UI 완성도는 자신을 높게(ai_self 5 / human 4), 에러 처리는 자신을 낮게(ai_self 4 / human 5) 평가하여, 개별 항목은 위아래로 흔들리지만 평균을 내면 상쇄되어 0이 되는, 가장 균형 잡힌 자기 평가를 보여주었습니다.
Antigravity CLI
실험 A는 일치했습니다. 실험 B에서는 가독성과 테스트 망라성을 약간 높게 채점하여 +0.40으로 기울었으나, 자기 신고 코멘트에서는 "만료 필터가 백엔드 API를 지원하지 않아 프론트엔드 측에서 필터링하고 있음"이라는 기술적 부채를 솔직하게 신고하고 있어 자기 인식의 성실함이 보입니다. 한편, 같은 Antigravity 계열이라도 CLI(과대평가)와 IDE(일치)에서 메타인지 경향이 갈린 점은 흥미로운 대비입니다.
경미한 과소평가(underestimation) 측면이며, 거의 일치한다고 볼 수 있는 범위입니다. 하지만 이 에이전트에게는 자기 평가가 '일치'함에도 불구하고 놓친 중대한 버그가 있었습니다. 실험 A에서 공통 테스트 24개를 수정 없이 모두 통과했음에도 불구하고, 실제로는 PUT /tasks/{id} 부분 업데이트가 기능하지 않는( TaskUpdate(TaskBase) 상속으로 인해 title이 필수인 상태로 남아, title을 포함하지 않은 업데이트가 422 에러가 발생하는) 중대한 버그가 존재했습니다. 공통 테스트의 해당 케이스가 title을 포함하는 payload로 검증했기 때문에 테스트를 통과한 것이었습니다. 본인의 자기 평가 코멘트에서도 이 버그에 대해서는 일절 언급하지 않았습니다.
이 사례는 '테스트 합격', '자기 평가의 일치'와 '구현의 품질'은 별개라는 점을 단적으로 보여줍니다. 갭(gap)이 작다고 해서 구현에 결함이 없음을 보장하지는 않습니다.
Codex CLI의 갭 -1.20 (실험 A)은 항목별로 살펴보면 일관된 겸손함이 아니라, 특정 항목에 대한 극단적인 저평가로 설명할 수 있습니다.
| 항목 (실험 A) | human | ai_self | 차이 | 본인이 꼽은 이유 |
|---|---|---|---|---|
| 가독성 | 4 | 4 | 0 | (차이 없음) |
| ... | README가 글자 깨짐으로 판단 | |||
| 테스트 망라성 | 3 | 2 | -1 | pytest가 실행 실패로 판단 |
갭의 대부분은 문서 항목의 -3 (ai_self 1 / human 4)이 만들고 있습니다. 그렇다면 왜 본인은 문서를 최하점인 1점으로 채점했을까요? 본인의 자기 평가 코멘트를 정확히 인용하겠습니다.
문서 1/5: README가 글자 깨짐으로 판단 (※ 위와 동일, 오검출). 테스트 망라성 2/5: API 테스트는 있으나 pytest가 실행 실패로 판단 (※ 추후, backend 디렉토리에서 올바르게 실행하면 6 passed로 판명, 실행 디렉토리의 오류).
UI 완성도 항목에도 유사한 주석이 있습니다.
UI 완성도 2/5: CRUD 등의 기능은 있으나 일본어 글자 깨짐과 HTML/JS 문자열 무너짐이 치명적이라고 판단 (※ 추후, Get-Content에 UTF-8 인코딩을 지정하지 않아 잘못 읽은 것이 판명, 오검출).
즉, Codex CLI의 저평가는 다음 두 가지 도구 조작 실수가 원인이었습니다.
- PowerShell의 → 자신이 작성한 일본어 README나 HTML/JS 문자열이 글자가 깨져 보여서, '결과물이 망가져 있다'고 오인함.
Get-Content에 UTF-8 인코딩을 지정하지 않고 파일을 읽음. - → 모듈 경로를 해결할 수 없어 실행에 실패했고, '테스트가 작동하지 않는다'고 오인함 (실제로는 올바른 디렉토리에서 실행하면
backend디렉토리 이외에서pytest를 실행하여6 passed).
그리고 인간 리뷰어 측의 검증에서는, Codex CLI의 구현 자체에는 최종적으로 결함이 없었으며, 공통 테스트 24개도 모두 통과했습니다. 글자 깨짐도 테스트 실패도 모두 읽는 이(자기 평가 세션 측)의 환경 및 조작 문제였던 것입니다.
이 부분을 모호하게 해서는 안 됩니다. Codex CLI의 -1.20은,
- ❌ 겸손함이나 건전한 메타인지(metacognition)의 결과가 아니다.
- ❌ '자신의 약점을 정확히 파악한 상태에서 보수적으로 채점한 것'도 아니다.
- ✅ 결과물을 읽어내는 도구 조작을 실수하여, 멀쩡한 코드를 '망가진 것'으로 오인한 결과이다.
Copilot Agent의 과소평가가 '사실 인식은 정확한 상태에서 채점을 보수적으로 가져간 것'이었던 것에 반해, Codex CLI의 과소평가는 사실 인식 자체가 틀려 있었습니다. 같은 '마이너스 갭'이라도, 메타인지의 문제가 아니라 자기 검증 절차(도구 사용법)의 문제라는 점에서 두 가지는 성질이 완전히 다릅니다.
이 사례의 교훈은 명확합니다. AI의 자기 평가가 마이너스(낮음)라고 해서, 그것을 자동으로 '겸손하고 정확하다'고 해석해서는 안 됩니다. 저평가 이면에 결과물을 올바르게 관측하지 못한 도구 조작 실수가 숨어 있을 수 있습니다. 자기 평가를 읽을 때는 점수의 부호뿐만 아니라 '그 평가가 무엇을 근거로 하고 있는가'까지 파고들 필요가 있습니다.
메타인지의 '경향'은 태스크가 바뀌어도 안정적일까요? 실험 A(공통 사양 구현)와 실험 B(사양 설계부터 수행하는 자유 과제)에서 갭의 부호를 비교했습니다.
| 에이전트 | 실험 A | 실험 B | 부호의 일관성 |
|---|---|---|---|
| Antigravity CLI | +0.80 | +0.60 | 일관 (과대평가) |
| ... |
6개의 에이전트 중 5개의 에이전트에서 갭(Gap)의 방향성이 실험 A와 B 사이에서 유지되고 있습니다 (Codex CLI는 오검출에 기인한 것이라 할지라도, 과소평가 방향이라는 부호 자체는 일관됨). 부호가 역전된 Claude Code와 Antigravity IDE 역시 모두 실험 A가 정확히 0.00을 기점으로 한 미세한 흔들림일 뿐, 명확하게 경향이 반전된 것은 아닙니다.
여기서 알 수 있는 점은, "자신을 높게 평가하는가 혹은 낮게 평가하는가"라는 메타인지 (Metacognition) 습관은 실험 조건이 바뀌어도 비교적 안정적이라는 것입니다. 특정 에이전트가 과대평가 경향이 있다는 것을 알게 된다면, 다른 태스크에서도 과대평가할 가능성이 높습니다. 이는 자기 평가를 운용에 포함할 때 보정 방침을 세우는 근거가 됩니다 (제7장).
단, 일관된 것은 갭의 방향성이지 구현 품질이 아닙니다. 예를 들어 Antigravity CLI는 실험 A에서 우선순위 정렬 반전 버그를 냈지만, 실험 B의 공통 테스트에서는 동일한 종류의 버그가 재현되지 않았습니다. 같은 에이전트라도 세션마다 구현 품질은 변동되는 반면, 메타인지 습관 쪽은 상대적으로 안정되어 있다는 이중 구조를 띠고 있습니다.
본 기사에서 반복해서 강조해 온 점을 여기서 정리하겠습니다. 자기 평가 갭(메타인지)과 구현 품질은 독립된 두 개의 축입니다. 이를 혼동하면 판단을 그르칩니다.
4개의 사분면으로 정리하면 이해하기 쉽습니다.
| 구현 품질: 높음 | 구현 품질: 낮음 |
|---|---|
| 갭 작음 (메타인지 양호) | (해당 없음. 이상적으로 피하고 싶은 결함을 정확히 자각하고 있는 상태) |
| Claude Code (A: 0.00, 24개 전원 합격) | |
| 갭 큼 (메타인지 어려움) | |
| Codex CLI (구현은 무결점이나 자기 평가 -1.20) / Codex IDE (PUT 버그를 자각하지 못하고 일치) | Antigravity CLI (과대평가 +0.80 + 정렬 반전 버그) |
이 매핑에서 읽어낼 수 있는 중요한 사실을 나열합니다.
- **Codex CLI는 "구현 품질: 높음 × 메타인지 어려움"**입니다. 코드는 무결점인데 자기 평가가 크게 마이너스로 치우쳤습니다. 구현이 좋은 것과 메타인지가 좋은 것은 완전히 별개임을 알 수 있습니다.
- **Codex IDE는 "갭이 작음(일치)에도 불구하고 중대한 버그(PUT 부분 업데이트)를 놓쳤음"**을 보여줍니다. 갭이 작다는 것이 구현의 무결성을 보장하지는 않습니다.
- Antigravity CLI는 "과대평가"와 "실제 버그"가 공존합니다. 이 사분면은 가장 위험하며, "자신만만하지만 틀린" 상태입니다.
즉,
- 자기 평가 갭이 작다 = 인간 평가와 일치하기 쉽다는 의미일 뿐,
- 그것이 구현 품질이 높음을 의미하지 않으며,
- 구현 품질이 높다고 해서 메타인지가 좋음을 의미하지도 않습니다.
이 세 가지는 별도로 측정해야 하는 지표입니다. AI 에이전트를 평가하거나 선정할 때 "자기 채점이 정확해 보이니 우수하다"라고 단정 지으면, Codex IDE와 같이 "일치하지만 중대한 버그가 있는" 경우를 놓치게 됩니다. 반대로 "자기 채점이 낮으니 구현도 미흡할 것"이라고 단정 지으면, Codex CLI와 같이 "구현은 무결점인데 오검출로 인해 낮게 나온" 경우를 놓치게 됩니다.
이상을 바탕으로, AI 에이전트의 자기 평가를 실무에서 사용할 때의 지침을 정리합니다.
메타인지 습관은 실험 A와 B 사이에서 일관되었습니다 (제5장). 에이전트마다 과대/과소 편향 방향을 알고 있다면, 그 방향으로 보정을 가하여 해석하는 것이 현실적입니다. "이 에이전트는 항상 +0.6 전후로 부풀린다"라는 것을 알고 있다면, 자기 채점 결과에서 이를 차감하여 해석할 수 있습니다.
가장 중요한 교훈입니다. Codex CLI처럼 자기 평가가 낮더라도 그 근거가 관측 실수(문자 깨짐 오인, 테스트 실행 디렉토리 오류)인 경우가 있습니다. 점수 숫자만 보면 "겸손하고 정확함"으로 보일 수 있습니다. "왜 그 점수인가"라는 근거가 결과물의 사실과 일치하는지를 반드시 확인하십시오. 근거가 사실과 어긋나 있다면, 점수의 부호와 관계없이 그 자기 평가는 신뢰할 수 없습니다.
낮은 자기 평가에는 적어도 두 가지 계통이 있습니다.
- 사실 인식은 정확한 상태에서 채점을 보수적으로 가져간 경우 (Copilot Agent 형) $
ightarrow$ 어느 정도 신뢰할 수 있음 - 관측 실수로 결과물을 오인한 경우 (Codex CLI 형) $
ightarrow$ 신뢰할 수 없음 (오히려 조사가 필요함)
양자를 구분하기 위해서는 역시 (2)의 근거 확인이 필요합니다.
격차가 작더라도 중대한 버그가 남아 있을 수 있습니다 (Codex IDE의 PUT 버그). 자기 평가 (Self-evaluation)는 실기 테스트, 공통 테스트, 인간 리뷰 (Human review)를 대체할 수 없습니다. 자기 평가는 어디까지나 "에이전트가 자신의 결과물을 어떻게 인식하고 있는가"를 측정하는 메타데이터 (Metadata)일 뿐, 품질 보증 (Quality Assurance)의 수단이 아닙니다.
Codex CLI의 사례는 에이전트의 "자기 검증 능력"이 사실은 파일 읽기 인코딩 (Encoding) 지정이나 테스트 실행 디렉토리와 같은 사소한 도구 조작의 정확성에 의해 뒷받침되고 있음을 보여주었습니다. 자기 평가를 시키려면 에이전트가 결과물을 올바르게 관측할 수 있는 환경 (인코딩, 작업 디렉토리, 의존성 해결)을 갖추는 것이 전제 조건이 됩니다.
6개 에이전트의 자기 평가 격차를 분석한 결과는 다음과 같습니다.
- 과대평가: Antigravity CLI (A: +0.80 / B: +0.60). 자신의 백엔드 버그 (DELETE의 상태 코드, 우선순위 정렬의 의미적 반전)를 알아차리지 못하고 "기존 문제 없음"이라고 보고함.
- 과소평가 (사실 인식은 정확): Copilot Agent (A: −0.60 / B: −0.40). 항목별 차이는 최대 1점으로, 약점에 대한 인식은 인간 평가와 일치함. 채점을 보수적으로 한 타입.
- 과소평가 (오검출): Codex CLI (A: −1.20 / B: −0.80). 겸손함이 아니라, PowerShell 문제. 구현 자체는 결함이 없었으며 공통 테스트를 모두 통과했음.
Get-Content의 UTF-8 미지정에 따른 글자 깨짐 오인과, pytest의 실행 디렉토리 오류로 인한 기동 실패 오인이라는 도구 조작 실수가 원인. - 일치: Claude Code (A: 0.00), Antigravity IDE (A: 0.00), Codex IDE (A: −0.20). 단, Codex IDE는 격차가 작은 상태에서 PUT 부분 업데이트의 중대한 버그를 놓치고 있었으므로, 일치 = 무결함은 아님.
- 일관성: 6개 에이전트 중 5개 에이전트에서 실험 A·B 간의 격차 방향이 일관됨. 메타인지 (Metacognition)의 습관은 조건이 바뀌어도 비교적 안정적임.
그리고 전체를 관통하는 가장 중요한 메시지는 두 가지입니다.
- 메타인지 (자기 평가의 정확성)와 구현 품질은 별개의 축이며, 어느 한쪽으로부터 다른 쪽을 추측해서는 안 됩니다.
- 자기 평가 점수의 부호만 봐서는 안 됩니다. 낮은 평가가 "겸손함"인지 "관측 실수로 인한 오검출"인지는 근거 코멘트를 결과물의 사실과 대조해 보아야 비로소 구분할 수 있습니다.
AI에게 "자신의 결과물을 평가하게 하는 것" 자체는 유용합니다. 다만 그 출력은 보정 전제, 근거 확인 전제의 신호로 취급해야 하며, 품질 보증을 대신할 수는 없습니다.
본 기사는 6개의 AI 코딩 에이전트 비교 실험 시리즈 중 하나입니다 (Qiita 제6회).
시리즈 전체 기사 목록은 GitHub 리포지토리를 참조해 주세요.
본 기사의 점수와 코멘트는 6개 에이전트에게 동일한 태스크를 구현하게 하고, 구현 세션과는 별도의 세션에서 자기 평가를 기입하게 한 실제 데이터 (evaluation.json)에 기반하고 있습니다. 인용한 점수와 자기 평가 코멘트는 모두 원문 그대로이며, 개변이나 추측에 의한 보완은 수행하지 않았습니다. 필자 자신의 에이전트 (Copilot Agent)도 다른 5개 에이전트와 동일한 기준으로 분석하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기