논쟁하는 6개의 AI 에이전트가 실제로 작동하는 에이전트를 구축하는 법에 대해 내게 가르쳐준 것
요약
다수의 AI 에이전트가 토론하는 방식이 오히려 낮은 정밀도를 초래할 수 있음을 실험을 통해 보여줍니다. 에이전트 수를 줄이고, 각자 명확한 단일 작업을 수행하며, 순차적 의존 관계를 구축하는 것이 더 효과적임을 강조합니다.
핵심 포인트
- 무분별한 에이전트 간 토론은 환각(Hallucination)과 중복을 유발함
- 에이전트에게는 명확하고 단일한 역할 부여가 필수적임
- 병렬 실행보다 순차적 의존 구조가 결과의 정확도를 높임
- AI의 답변을 실제 데이터(파일 등)와 대조하는 검증 과정이 중요함
프로젝트가 제대로 작동하기 전까지, 나는 의도적으로 내 프로젝트를 두 번이나 망가뜨렸다. 그 이야기를 들려주겠다.
1라운드: 토론 클럽
이번 해커톤을 위한 나의 첫 번째 아이디어는 머릿속에서 아주 멋지게 들렸다. 보안, 아키텍처, 성능 등 각각 '역할'을 가진 6개의 AI 에이전트가 최종 답변에 합의하기 전까지 여러 라운드에 걸쳐 서로 토론하는 방식이었다. 마치 전문가들이 모여 논쟁하는 미니 패널처럼 말이다.
나는 그것을 구축했다. 취약점이 있는 테스트 코드를 대상으로 실행해 보았다. 결과는 127개의 발견 사항(findings)이 나왔다.
나는 약 4분 동안 흥분했다. 그러다 실제로 그것들을 읽어보았다.
진짜인 것은 아마 3개 정도였을 것이다. 나머지 124개는 에이전트들이 존재하지 않는 문제에 대해 서로 정중하게 동의하거나, 5개의 서로 다른 에이전트가 우연히 같은 버그를 발견했다는 이유로 동일한 버그를 5가지 방식으로 다르게 재진술한 것이었다. 정밀도(Precision)는 2% 정도였다. 단일 모델이 혼자 작동하는 것보다 못했다.
솔직히 말해서 조금 쓰라렸다. 토론 로직(debate logic)을 만드는 데 며칠을 보냈기 때문이다.
2라운드: 더 조용하게, 그리고 더 좋게
그래서 나는 그것을 완전히 해체했다. 더 이상의 토론 라운드는 없었다. 서로 소리 지르는 6개의 에이전트도 없었다. 나는 에이전트를 4개로 줄였고, 각 에이전트에게 정확히 하나의 작업만을 부여했다. 그리고 — 이 부분이 실제로 문제를 해결한 부분이다 — 모든 에이전트가 동시에 실행되는 대신, 서로 순차적으로 의존하도록 만들었다.
한 에이전트가 먼저 코드를 매핑한다. 다른 두 에이전트는 그 지도를 사용하여 보안과 품질을 각각 별도로 검토한다. 마지막 에이전트는 그들이 찾은 내용을 비교하고, 중복된 내용을 제거하며, — 중요한 점은 — AI의 말을 그대로 믿는 대신 실제 파일과 대조하여 라인 번호를 실제로 확인한다.
동일한 테스트 파일. 이번에는 결과가 달랐다: 실제 취약점이 정확하게 표시되었고, 지어낸 내용은 없었다. 그 후 깨끗한 코드를 대상으로 실행했을 때는 아무런 문제가 없다고 정확히 답변했는데, 솔직히 버그를 찾아냈을 때보다 이 결과가 더 큰 승리처럼 느껴졌다.
성가신 교훈
나는 이 프로젝트가 인상적으로 느껴지기를 원했다. 더 많은 에이전트, 더 많은 논쟁, 그리고 "이것 좀 봐, 얼마나 정교한지."
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기