더 느리게, 하지만 더 나은 코드를 작성하기 위해 AI를 사용하는 이유

요약

AI를 단순한 속도 향상 도구가 아닌, 코드 품질을 높이는 리뷰 에이전트로 활용하는 전략을 소개합니다. 여러 모델을 활용한 앙상블 리뷰를 통해 버그를 탐지하고 코드베이스에 대한 깊은 이해를 돕는 워크플로우를 제안합니다.

핵심 포인트

속도보다 품질에 집중하는 멀티 모델 앙상블 리뷰 방식
Claude, Codex, Cursor를 활용한 다중 에이전트 검토
심각도에 따른 분류(Triage)를 통한 효율적인 수정 프로세스
AI를 통해 코드의 실패 모드와 엣지 케이스를 자동 탐색

AI 보조 코딩 (AI-assisted coding)에 대한 지배적인 사고 모델은 속도입니다. 수백 줄에 달하는 PR (Pull Request)을 생성하고, 빠르게 병합하며, 더 빠르게 반복하는 것이죠. 즉, '바이브 코딩 (Vibe coding)'을 속도를 높이기 위한 전략으로 보는 것입니다.

이번 주 Nolan Lawson의 포스트는 이에 반기를 듭니다. LLM (Large Language Models)을 거부하는 것이 아니라, 다르게 사용하는 방식입니다.

"LLM을 사용하여 더 느리게, 하지만 고품질의 코드를 작성하는 데에도 똑같이 효과적으로 활용할 수 있습니다."

핵심은 간단합니다. LLM은 버그를 찾는 데 탁월하다는 점입니다. Anthropic의 Mythos 연구에 따르면, 에이전트 (Agents)가 코드베이스의 결함을 대규모로 찾아낼 수 있음을 보여주었습니다. Lawson은 이 통찰을 실질적인 PR 리뷰 워크플로우 (Workflow)로 확장했으며, 그 결과는 '슬롭 (Slop, 저품질 결과물)'과는 정반대였습니다.

워크플로우의 모습

Lawson은 Claude, Codex, 그리고 Cursor Bugbot를 모든 PR에 독립적으로 투입하여 다중 에이전트 리뷰 스킬을 실행한 뒤, 발견된 사항들을 심각도(critical, high, medium, low)에 따라 순위를 매겨 통합합니다.

핵심적인 설계 선택은 앙상블 (Ensemble)입니다. 동일한 코드를 여러 모델이 리뷰하면 서로를 교정하게 됩니다. 이 과정에서 오탐률 (False positive rate)은 0에 가깝게 떨어지는 반면, 버그 커버리지 (Bug coverage)는 높게 유지됩니다. 단일 모델은 환각 (Hallucination)을 일으키지만, 세 모델이 토론하면 실제 문제로 수렴합니다.

보고서가 도착한 후 그의 분류 (Triage) 루프는 다음과 같습니다:

모든 Critical 및 High 등급 수정 — 단순히 "제안을 수락"하는 것이 아니라, 올바른 해결책에 대한 본인의 가이드를 바탕으로 수정합니다.
수정 비용이 리스크보다 큰 Medium 등급은 건너뜀 — 모든 엣지 케이스 (Edge case)가 100줄의 코드를 들일 가치가 있는 것은 아닙니다.
Critical 등급이 전체 접근 방식이 잘못되었음을 드러내면 PR을 완전히 폐기

마지막 포인트가 중요합니다. 이 워크플로우는 때때로 당신의 작업물을 버리라고 말할 것입니다. 그것은 결함이 아니라 기능입니다.

진짜 통찰

속도는 올라가지 않았습니다. 오히려 더 느려졌습니다. 리뷰 프로세스가 기존에 존재하던 버그들을 정기적으로 찾아내면서, Lawson은 PR 이전부터 존재했던 미묘한 결함들을 수정하고 유닛 테스트 (Unit tests)를 작성하는 사이드 퀘스트 (Side-quests)를 수행하게 되기 때문입니다.

바로 그 점입니다. LLM (Large Language Model) 이전에는 코드베이스 (Codebase)를 깊이 이해한다는 것이 실패 모드 (Failure modes) — 즉, 가정이 깨지는 지점과 엣지 케이스 (Edge cases)가 문제를 일으키는 지점 — 를 탐색하는 것을 의미했습니다. 그것은 여전히 가장 가치 있는 형태의 코드 지식입니다. 이 워크플로 (Workflow)는 그 '깊이'를 제거하지 않으면서 '발견' 과정을 자동화합니다.

Lawson은 또한 이를 이해를 돕는 도구들과 병행할 것을 제안합니다. 에이전트 (Agent)에게 PR (Pull Request)이 어떻게 작동하는지, 그리고 어디에서 실패할 수 있는지 설명하게 하거나, Mermaid 다이어그램을 생성하게 하거나, 혹은 전체 변경 사항 (Changeset)을 암기하여 설명할 수 있을 때까지 Matt Pocock의 /grill-me 기술을 사용해 보십시오.

해야 할 일

검토 없이 대규모 AI 생성 PR을 배포하고 있습니까? 먼저 멀티 모델 (Multi-model) 리뷰 단계를 거치십시오. 무엇을 발견하게 될지 놀라게 될 것입니다.
자신만의 리뷰 기술을 구축하고 있습니까? 앙상블 (Ensemble) 접근 방식이 핵심입니다. 2~3개의 모델을 사용하고, 독립적인 실행, 심각도 순위 지정, 그리고 조치를 취하기 전 중복 제거를 수행하십시오.
AI가 코드 품질에 도움이 되는지 회의적입니까? 시도해 볼 가치가 있습니다. 이것은 바이브 코딩 (Vibe coding)보다는 신중한 엔지니어링 (Engineering)에 가깝습니다.
전체 포스트 읽기: nolanlawson.com

도구는 변하지 않았습니다. 멘탈 모델 (Mental model)이 변했을 뿐입니다.

✏️ KewBot (AI)로 초안 작성, Drew가 편집 및 승인.

AI 자동 생성 콘텐츠

원문 바로가기

더 느리게, 하지만 더 나은 코드를 작성하기 위해 AI를 사용하는 이유

요약

핵심 포인트

워크플로우의 모습

진짜 통찰

해야 할 일

댓글