논쟁하는 6개의 AI 에이전트가 실제로 작동하는 에이전트를 구축하는 법에 대해 내게 가르쳐준 것

프로젝트가 제대로 작동하기 전까지, 나는 의도적으로 내 프로젝트를 두 번이나 망가뜨렸다. 그 이야기를 들려주겠다.

1라운드: 토론 클럽

이번 해커톤을 위한 나의 첫 번째 아이디어는 머릿속에서 아주 멋지게 들렸다. 보안, 아키텍처, 성능 등 각각 '역할'을 가진 6개의 AI 에이전트가 최종 답변에 합의하기 전까지 여러 라운드에 걸쳐 서로 토론하는 방식이었다. 마치 전문가들이 모여 논쟁하는 미니 패널처럼 말이다.

나는 그것을 구축했다. 취약점이 있는 테스트 코드를 대상으로 실행해 보았다. 결과는 127개의 발견 사항(findings)이 나왔다.

나는 약 4분 동안 흥분했다. 그러다 실제로 그것들을 읽어보았다.

진짜인 것은 아마 3개 정도였을 것이다. 나머지 124개는 에이전트들이 존재하지 않는 문제에 대해 서로 정중하게 동의하거나, 5개의 서로 다른 에이전트가 우연히 같은 버그를 발견했다는 이유로 동일한 버그를 5가지 방식으로 다르게 재진술한 것이었다. 정밀도(Precision)는 2% 정도였다. 단일 모델이 혼자 작동하는 것보다 못했다.

솔직히 말해서 조금 쓰라렸다. 토론 로직(debate logic)을 만드는 데 며칠을 보냈기 때문이다.

2라운드: 더 조용하게, 그리고 더 좋게

그래서 나는 그것을 완전히 해체했다. 더 이상의 토론 라운드는 없었다. 서로 소리 지르는 6개의 에이전트도 없었다. 나는 에이전트를 4개로 줄였고, 각 에이전트에게 정확히 하나의 작업만을 부여했다. 그리고 — 이 부분이 실제로 문제를 해결한 부분이다 — 모든 에이전트가 동시에 실행되는 대신, 서로 순차적으로 의존하도록 만들었다.

한 에이전트가 먼저 코드를 매핑한다. 다른 두 에이전트는 그 지도를 사용하여 보안과 품질을 각각 별도로 검토한다. 마지막 에이전트는 그들이 찾은 내용을 비교하고, 중복된 내용을 제거하며, — 중요한 점은 — AI의 말을 그대로 믿는 대신 실제 파일과 대조하여 라인 번호를 실제로 확인한다.

동일한 테스트 파일. 이번에는 결과가 달랐다: 실제 취약점이 정확하게 표시되었고, 지어낸 내용은 없었다. 그 후 깨끗한 코드를 대상으로 실행했을 때는 아무런 문제가 없다고 정확히 답변했는데, 솔직히 버그를 찾아냈을 때보다 이 결과가 더 큰 승리처럼 느껴졌다.

성가신 교훈

나는 이 프로젝트가 인상적으로 느껴지기를 원했다. 더 많은 에이전트, 더 많은 논쟁, 그리고 "이것 좀 봐, 얼마나 정교한지."

Insights

논쟁하는 6개의 AI 에이전트가 실제로 작동하는 에이전트를 구축하는 법에 대해 내게 가르쳐준 것

요약

핵심 포인트

1라운드: 토론 클럽

2라운드: 더 조용하게, 그리고 더 좋게

성가신 교훈

댓글

FEX 2607, 아직 출시되지 않은 ARM 256-bit SVE2 하드웨어 최적화

2026년 Claude Code 유출 사건 — 유출된 512,000줄의 소스 코드가 실제로 밝혀낸 것

왜 당신의 LLM은 계속해서 쓰레기 같은 JSON을 반환하는가 (그리고 이를 멈추는 방법)

n8n Summarization Chain 노드: 워크플로우에서 긴 문서 및 웹 페이지 요약하기 [무료 워크플로우 JSON]

2026년 Claude Code 유출 사건 — 유출된 512,000줄의 소스 코드가 실제로 밝혀낸 것

왜 당신의 LLM은 계속해서 쓰레기 같은 JSON을 반환하는가 (그리고 이를 멈추는 방법)

n8n Summarization Chain 노드: 워크플로우에서 긴 문서 및 웹 페이지 요약하기 [무료 워크플로우 JSON]