검증 비용이 실제 AI 코딩 비용이다

요약

AI 코딩 작업 시 모델의 성능보다 출력물의 검증(Verification) 용이성을 우선순위에 두어야 한다는 전략을 제시합니다. 검증 비용이 낮은 작업부터 높은 작업까지 4단계로 분류하여 효율적인 모델 배분 방식을 설명합니다.

핵심 포인트

모델 선택의 핵심 기준은 '출력을 얼마나 빨리 검증할 수 있는가'임
검증 경로가 짧은 작업(README, 주석 등)에는 저비용 모델이 매우 효율적임
테스트 실행이 가능한 작업은 프롬프트에 검증 프레임을 명시하여 자동화 가능
리팩터링이나 권한 설정 등 숨겨진 동작을 변경하는 작업은 높은 검증 비용이 발생함

저는 모델 간에 코딩 작업을 배분할 때 다음과 같은 간단한 질문을 던지곤 했습니다.

이 작업에 충분히 강력한 모델은 무엇인가?

그 질문은 여전히 유용하지만, 이제 제가 가장 먼저 던지는 질문은 아닙니다.

더 나은 첫 번째 질문은 다음과 같습니다.

출력을 얼마나 빨리 검증(Verification)할 수 있는가?

이 질문은 제가 저비용 모델을 사용하는 방식을 바꾸어 놓았습니다. 저는 저비용 모델을 메인 코딩 모델을 대체하는 약한 모델로 취급하지 않습니다. 대신 검증 경로(Verification path)가 짧은 작업에 유용한 작업자(Worker)로 취급합니다.

레벨 1: 출력을 직접 검사할 수 있는가?

어떤 작업들은 출력이 눈에 보이기 때문에 검토 비용이 저렴합니다.

예시:

README 정리
사용 예시 (Usage examples)
주석 (Comments)
변경 사항 기록 (Changelog notes)
작은 포맷팅 스크립트 (Small formatting scripts)
이슈 템플릿 (Issue templates)

모델이 형편없는 README 문단을 작성한다면, 저는 그것을 바로 볼 수 있습니다. 모호한 표현을 추가한다면, 저는 그것을 삭제할 수 있습니다. 실패는 짜증스럽지만, 비용은 저렴합니다.

이것이 바로 저비용 모델이 유용한 지점입니다.

레벨 2: 테스트를 실행할 수 있는가?

다음으로 좋은 카테고리는 테스트 가능한 작업입니다.

기대되는 동작을 설명하고 테스트 스위트(Test suite)를 실행할 수 있다면, 저는 첫 번째 초안을 더 저렴한 모델로 배분할 의향이 더 커집니다.

하지만 프롬프트(Prompt)에는 경계가 필요합니다.

다음과 같은 방식 대신:

이 헬퍼 함수에 대한 테스트를 추가해줘.

저는 다음과 같이 작성합니다:

빈 입력(Empty input), null 입력, 중복 값, 잘못된 설정(Invalid config), 기본 설정(Default config), 그리고 일반적인 입력에 대한 테스트를 추가해줘. 런타임 코드(Runtime code)는 변경하지 마.

차이는 작지만, 이는 모델이 검증 프레임(Verification frame) 안에서 작업하도록 강제합니다.

레벨 3: 수동으로 검증할 수 있는가?

어떤 작업들은 자동화된 테스트는 없지만, 명확한 수동 확인 절차는 있습니다.

예시:

CLI 출력 포맷팅
설정 예시 (Config examples)
마이그레이션 드라이 런(Migration dry-run) 노트
작은 데이터 변환 스크립트

이런 작업들에 대해, 저는 모델에게 다음 사항을 포함하도록 요청합니다:

실행 방법
어떤 입력을 사용할지
어떤 출력을 기대할지
어떤 에지 케이스(Edge cases)를 확인해야 할지

모델이 자신의 출력을 어떻게 검증할 수 있는지 설명하지 못한다면, 저는 그 패치(Patch)를 신뢰하지 않습니다.

레벨 4: 숨겨진 동작을 변경할 수 있는가?

이 지점에서 저는 속도를 늦춥니다.

작은 리팩터링(Refactor)은 종종 보이는 것보다 더 위험합니다.

차이점(Diff)은 짧을 수 있습니다. 코드는 더 깔끔해 보일 수도 있습니다. 하지만 폴백 경로(Fallback path), 기본값(Default value), 권한 확인(Permission check), 또는 호환성 분기(Compatibility branch)에서 동작이 변경될 수 있습니다.

저는 다음과 같은 작업이 포함될 때 위험 수준을 높입니다:

폴백 (Fallbacks)
기본값 (Defaults)
라우팅 (Routing)
권한 (Permissions)
결제 (Billing)
속도 제한 (Rate limits)
마이그레이션 (Migrations)
하위 호환성 (Backwards compatibility)

이러한 실패는 코드 리뷰(Code review)에서 항상 명확하게 드러나지는 않습니다. 이를 알아차리려면 맥락(Context)이 필요합니다.

저의 현재 라우팅 규칙

저는 검증 비용(Verification cost)에 따라 라우팅합니다:

낮은 검증 비용: 저비용 모델(Low-cost model)이 초안을 작성할 수 있음.
중간 검증 비용: 저비용 모델이 초안을 작성하고, 사람이 수정함.
높은 검증 비용: 강력한 모델(Strong model)의 도움을 받을 수 있으나, 테스트와 사람의 검토가 필요함.

이 규칙은 "작은 작업 vs 큰 작업"이라는 구분보다 더 유용합니다.

작은 작업이라도 검증하기 어렵다면 비용이 많이 들 수 있습니다.

핵심 요점

저비용 AI 코딩 모델은 쓸모없는 것이 아닙니다.

작업을 검사하기 쉽거나, 테스트하기 쉽거나, 롤백(Roll back)하기 쉬울 때 매우 유용합니다.

AI 코딩에서 비용이 많이 드는 부분이 항상 생성(Generation)인 것은 아닙니다.

종종, 그것은 신뢰(Trust)입니다.

AI 자동 생성 콘텐츠

원문 바로가기