AI 코드를 작성하는 것보다 디버깅하는 데 10배나 더 많은 시간을 썼습니다 — 무엇이 변했는가 - Insights | Molayo

모두가 AI가 코딩 속도를 높여준다고 말합니다. 하지만 아무도 AI가 생성한 코드를 디버깅하는 것에 대해서는 말하지 않습니다.

ChatGPT가 30초 만에 작성한 20줄짜리 Python 함수를 디버깅하는 데 6시간을 보냈던 때에 대해 이야기해 보겠습니다. 6시간입니다. 그 함수는 CSV 파일을 파싱(parse)하고, 데이터를 정제(clean)하며, 요약본을 출력하도록 되어 있었습니다. 하지만 실제로 그 함수가 한 일은 인덱싱 루프(indexing loop)의 off-by-one 에러로 인해 행(row)의 15%를 조용히 누락시키는 것이었습니다. 최종 수치가 의심스러울 정도로 낮게 보일 때서야 겨우 발견할 수 있었습니다. 그때쯤 저는 이미 그 망가진 토대 위에 다른 세 개의 모듈을 구축한 상태였습니다.

그것은 6개월 전의 일입니다. 그 이후로 저는 AI 보조 코딩(AI-assisted coding)이 지름길이 아니라 파트너십이며, 그 과정에서 당신이 책임감 있는 성인이 되어야 한다는 것을 고통스럽게 배웠습니다.

AI 생성 코드의 숨겨진 비용

처음 AI 도구를 사용하여 코드를 작성하기 시작했을 때, 저는 완전히 매료되었습니다. 보일러플레이트(boilerplate)를 생성하고, 지저분한 함수를 리팩터링(refactor)하며, 심지어 전체 마이크로서비스(microservices)를 몇 분 만에 프로토타이핑(prototype)할 수 있었습니다. 저의 작업 속도는 초인적으로 느껴졌습니다. 하지만 곧 대가를 치러야 했습니다. 바로 디버깅(debugging)이었습니다.

GitHub의 연구에 따르면 Copilot을 사용하는 개발자는 작업을 55% 더 빠르게 완료했지만, 동일한 연구에서 **코드의 품질(quality of the code)**은 특히 복잡한 로직의 경우 크게 차이가 난다고 언급했습니다. 저의 개인적인 경험도 이와 일치합니다. AI는 잘 정의된 반복적인 작업에는 환상적이지만, 시스템의 실제 제약 조건을 이해하는 데는 형편없습니다.

가장 최악인 점은 무엇일까요? AI가 생성한 버그는 종종 그럴듯하지만 틀린(plausible but wrong) 경우가 많다는 것입니다. 코드는 컴파일(compile)되고 실행되며, 더 깊이 파고들기 전까지는 맞는 것처럼 보이는 출력을 생성합니다. 전형적인 예로, 저는 시계열(time series)의 이동 평균(moving average)을 계산하고 보간법(interpolation)으로 결측치를 처리하는 Python 함수를 작성해 달라고 요청했습니다. AI는 pandas를 사용한 깔끔한 15줄짜리 솔루션을 내놓았습니다. 완벽해 보였죠? 하지만 그것은 전체 DataFrame에 interpolate(method='linear')를 사용했고, 이는 타임스탬프 인덱스의 간극을 전방 채우기(forward-fill)하여 평균을 12% 왜곡시키는 유령 데이터 포인트(phantom data points)를 생성했습니다.

저는 수동 계산값과 비교하는 유닛 테스트 (unit test)가 있었기에 겨우 그 버그를 찾아낼 수 있었습니다. 그 테스트 덕분에 결함이 있는 분석 데이터를 운영 환경 (production)에 배포하는 사태를 면했습니다.

코드 예시: 절대 빨리 찾아낼 수 없는 버그

다음은 해당 이동 평균 (moving average) 함수의 단순화된 버전입니다:

import pandas as pd

def moving_average_with_interpolation(data: pd.Series, window: int = 3) -> pd.Series:
...

깔끔해 보이죠? 하지만 버그는 미묘합니다. interpolate(method='linear')는 시간 간격이 동일하다고 가정합니다. 만약 데이터의 타임스탬프 (timestamp)가 불규칙하다면, 실제 시간 간격이 아닌 인접한 인덱스 사이를 보간 (interpolate)하게 됩니다. 해결책은 시간 기반 보간을 위해 method='time'을 사용하는 것입니다:

    filled = data.interpolate(method='time')  # 정답: 실제 타임스탬프를 존중함

AI는 제가 명시적으로 말하지 않았기 때문에 제 데이터에 불규칙한 간격이 있다는 사실을 알지 못했습니다. 그리고 저는 AI가 문맥 (context)을 통해 이를 추론할 것이라고 가정했기에 굳이 언급할 생각을 하지 못했습니다. 이것이 문제의 핵심입니다. 쓰레기가 들어가면 쓰레기가 나온다 (garbage in, garbage out)는 원칙이 적용되는데, 그 쓰레기가 그럴싸해 보이는 코드 안에 숨겨져 있다는 점입니다.

무엇이 변했는가: 나의 디버깅 우선 워크플로우 (Debugging-First Workflow)

AI가 생성한 버그들의 연쇄 작용을 수정하느라 주말을 통째로 날린 후, 저는 접근 방식을 완전히 바꾸었습니다. 이제 저는 AI를 자신의 실수를 절대 인정하지 않는, 매우 빠르고 매우 자신만만한 주니어 개발자처럼 대합니다. 저는 다음과 같은 규칙들을 채택했습니다:

절대 신뢰하지 말고, 항상 검증하라 (Never trust, always verify). AI가 생성한 모든 코드 블록에 대해 제가 먼저 유닛 테스트 (unit test)를 작성한 다음, AI에게 해당 함수를 구현하도록 요청합니다. 그 후 AI가 작성한 코드를 대상으로 테스트를 실행합니다. 만약 테스트가 실패한다면, 코드가 아니라 테스트를 디버깅 (debug)합니다.
AI의 출력물을 작고 독립적인 함수로 격리하라. 저는 AI가 200줄짜리 모놀리스 (monolith) 코드를 작성하게 두지 않습니다. 작업을 10줄 단위의 청크 (chunk)로 나눕니다. 표면적 (surface area)이 작을수록 실수를 발견하기가 더 쉽습니다.
프롬프트 (prompt)에 명시적인 단언 (assertion)을 추가하라. 이제 저는 프롬프트에 예상되는 입출력 예시를 포함합니다. 예를 들어: "함수는 NaN 값을 보간 (interpolate)하지 말고 무시함으로써 처리해야 합니다. 예시: 입력 [1, NaN, 3] -> 이동 평균 [1, 1, 2]." 이렇게 하면 환각 (hallucination)된 로직이 급격히 줄어듭니다.
프롬프트를 포함한 모든 것을 버전 관리하라. 생성된 코드와 함께 사용한 프롬프트의 로그를 기록해 둡니다. 버그가 나타나면, 이를 모호한 프롬프트로 추적하여 제 실수로부터 배울 수 있습니다.
일관되고 신뢰할 수 있는 AI API 액세스를 사용하라. 이 부분은 저를 놀라게 했습니다. 초기에는 속도 제한 (rate limit)이 있고 모델 버전이 일관되지 않은 무료 티어 (free tier)를 사용했습니다. 모델이 업데이트되었거나 컨텍스트 윈도우 (context window)가 잘렸기 때문에, 같은 프롬프트라도 날짜마다 다른 출력을 내놓곤 했습니다. 이러한 가변성 때문에 디버깅이 훨씬 더 어려워졌습니다. 원래의 생성 과정을 재현할 수 없으니 버그도 재현할 수 없었기 때문입니다.

신뢰할 수 있는 API 액세스가 게임의 판도를 어떻게 바꾸었나

제가 종량제 (pay-as-you-go) API 서비스로 전환했을 때 두 가지 변화가 일어났습니다. 세션 도중에 속도 제한에 걸릴까 봐 걱정할 필요가 없어졌고, 모델 버전을 고정 (pin)할 수 있게 되었습니다. 갑자기 AI가 예측 가능해졌습니다. 동일한 프롬프트를 다시 실행하면 동일한 출력을 얻을 수 있었습니다. 그 사실 하나만으로도 디버깅 시간을 40% 단축할 수 있었는데, 수정하려는 동작을 실제로 재현할 수 있게 되었기 때문입니다.

그렇기 때문에 저는 이제 AI API가 필요할 때 shadie-oneapi.com과 같은 서비스를 사용합니다. 이것이 만능 해결책(magic bullet)은 아니지만, 할당량 관리(quota management)와 모델 버전 드리프트(model version drift)로 인한 마찰을 제거해 줍니다. 디버깅을 하고 있을 때 제가 가장 피하고 싶은 상황은, AI가 어제와 다르게 행동하는 것인지 의구심을 갖는 것입니다. 안정적이고 일관된 엔드포인트(endpoint)가 있다면, 저는 AI를 움직이는 표적이 아닌 신뢰할 수 있는 도구로 다룰 수 있습니다.

결론 (The Bottom Line)

AI 코딩 어시스턴트(AI coding assistants)는 놀랍지만, 여러분의 두뇌를 대체할 수는 없습니다. 하이프 사이클(hype cycle)은 여러분이 개발자를 해고하고 GPT가 앱을 작성하게 할 수 있다고 믿게 만들려 합니다. 하지만 현실은 체계적인 접근 방식을 채택하지 않는 한, 직접 코드를 작성했을 때보다 AI 코드를 디버깅하는 데 더 많은 시간을 소비하게 될 것이라는 점입니다.

저의 조언은 이렇습니다. 테스트부터 시작하세요. 함수를 격리(isolate)하세요. 프롬프트(prompt)를 명시적으로 작성하세요. 그리고 로직 버그(logic bugs)에 더해 버전 드리프트(version drift)와 싸우지 않도록 일관된 API 제공업체를 사용하세요.

이러한 워크플로(workflow)를 6개월간 적용한 결과, 저는 다시 생산성을 느끼고 있습니다. AI는 몇 초 만에 초안을 생성하고, 저는 테스트와 디버깅에 몇 분을 사용합니다. 순수 시간 절감 효과는요? 평균적으로 약 30% 정도입니다. 이것이 10배의 환상은 아니지만, 실제적이고 지속 가능하며, 무엇보다도 주말에 유령 버그(phantom bugs)를 찾아 헤매지 않아도 됩니다.

AI 코드를 디버깅하는 것은 여러분 자신의 코드를 디버깅하는 것과 마찬가지로 하나의 기술입니다. 연습과 겸손, 그리고 적당한 수준의 편집증(paranoia)이 필요합니다. 하지만 일단 패턴을 파악하는 법을 배우면, 혼란에 빠지지 않고도 그 속도로부터 실제로 이득을 얻을 수 있습니다.

만약 AI의 일관성을 유지할 수 있는 신뢰할 수 있는 API를 찾고 있다면, 저는 shadie-oneapi.com이 실용적인 선택이라는 것을 발견했습니다. 구독료 없이 사용한 만큼만 지불하면 됩니다. 그 안정성 하나만으로도 그 어떤 프롬프트 엔지니어링(prompt engineering) 기술보다 더 많은 디버깅 시간을 아껴주었습니다.

AI 코드를 작성하는 것보다 디버깅하는 데 10배나 더 많은 시간을 썼습니다 — 무엇이 변했는가

요약

핵심 포인트

AI 생성 코드의 숨겨진 비용

코드 예시: 절대 빨리 찾아낼 수 없는 버그

무엇이 변했는가: 나의 디버깅 우선 워크플로우 (Debugging-First Workflow)

신뢰할 수 있는 API 액세스가 게임의 판도를 어떻게 바꾸었나

결론 (The Bottom Line)

댓글