Zenn헤드라인2026. 05. 16. 08:14

DORA의 「ROI of AI-assisted Software Development」를 읽어보기

요약

DORA가 발표한 'The ROI of AI-assisted Software Development' 리포트는 AI 도입을 단순히 생산성 증가로 보는 것이 아니라, 조직 차원의 투자 수익률(ROI) 관점에서 접근합니다. 이 보고서는 AI의 효과를 측정할 때 작성된 코드 양이 아닌, 해소되는 병목 현상(bottleneck)에 초점을 맞추며, 성공적인 AI 도입을 위해서는 초기 단계에서 발생하는 생산성 하락기('변혁의 수업료', J-Curve)와 검증 과정에서의 추가 비용('검증세')를 사전에 예산화하고 관리하는 것이 중요함을 강조합니다.

핵심 포인트

AI는 소프트웨어 개발에서 강력한 증폭기(amplifier) 역할을 하며, 조직 환경의 질이 ROI를 결정한다.
AI 도입 초기에는 학습 비용 등으로 인해 일시적인 생산성 하락기('변혁의 수업료', J-Curve)가 발생하므로 이를 사전에 예산화해야 한다.
AI로 생성된 코드 자체보다, AI가 제거하는 개발 프로세스의 병목 현상(bottleneck)을 측정 지표로 삼아야 한다.
검증세(verification tax) 때문에 코드는 많이 작성되지만, 리뷰 및 검증 시간이 늘어나 배포 빈도와 리드 타임에 악영향을 줄 수 있다.

DORA가 2026년 4월 22일에 「The ROI of AI-assisted Software Development」(v.2026.1)를 발표했다. Google Cloud의 DORA 팀과 Google Cloud Consulting의 delta innovation practice의 공저이며, 리드는 Nathen Harvey이다.

「AI로 개발 생산성이 올라가는가」가 아니라, 「올라간 만큼을 어떻게 돈으로 측정할 것인가」를 다루는 리포트다. 본문 PDF와 함께 공식 ROI 계산기 (ROI calculator)가 공개되어 있어, 자사의 수치를 넣어 테스트해 볼 수 있다. InfoQ가 5월에 리뷰 기사를 게시했다.

이하, 54페이지 분량의 PDF를 통독하며 눈에 띈 3가지 포인트(AI는 증폭기/J-Curve/검증세)를 중심으로 작성한다. 그림은 리포트에서 인용한 것이다.

AI는 증폭기이지 자동 번역기가 아니다

리포트의 executive summary(요약)에서 한 구절.

AI serves as a powerful amplifier in software development. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.

번역: AI는 소프트웨어 개발에서 강력한 증폭기 (amplifier)로서 기능한다. 고성과 조직의 강점을 확대하고, 어려움을 겪는 조직의 기능 부전 (dysfunction)도 확대한다.

이는 2025년 9월의 DORA 2025 State of AI-assisted Software Development와 동일한 주장이며, 이번에는 그 「금액 환산 편」이다. LLM의 성능이 아니라, AI가 작동하는 환경(조직)의 질이 ROI를 결정한다는 것이 리포트 전체의 전제가 되어 있다.

DORA AI Capabilities Model (AI 역량 모델)이 제시하는 7가지 능력은 내부 개발자 플랫폼 (Internal Developer Platform), AI-accessible internal data (AI 접근 가능한 내부 데이터), 명확한 AI 스탠스, 사용자 중심, 작은 배치 (small batch), 버전 관리, AI에 대한 신뢰이다. 동일한 채택률이라도 이들이 갖춰진 팀은 throughput (처리량)이 올라가고 instability (불안정성)가 낮아진다. 갖춰지지 않으면 throughput은 올라가지만 instability도 함께 올라가며, ROI는 마이너스로 흐른다.

리포트의 표현 방식이 마음에 들어 인용해 둔다.

We don’t measure AI by the code it writes but by the bottlenecks it clears.

번역: AI를 측정하는 것은 작성된 코드가 아니라, 해소된 병목 현상 (bottleneck)에 의해서다.

작성된 코드가 아니라, 제거한 병목 현상으로 측정한다. 「AI로 몇 명을 대체할 수 있는가」를 측정하려 한다면, 이 기준과는 전혀 다른 지표가 될 것이다.

J-Curve의 「수업료」를 미리 예산화하기

AI 도입 직후, 생산성은 일시적으로 하락한다. 학습 비용, 검증세 (verification tax), 파이프라인 적응이라는 세 가지 이유로 인해, 측정상의 아웃풋은 도입 전보다 한 차례 낮아진다. 리포트는 이를 the tuition cost of transformation (변혁의 수업료)라고 부른다.

출처: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 2. CC BY-NC-SA 4.0

샘플 계산기의 기본값은 다음과 같다.

항목	값
기술 스태프	500 FTE
...
직접 하드 코스트	$5.07M
첫해 투자	$8.4M
첫해 리턴	$11.6M
...

15% × 3개월은 어디까지나 기본 가정이다. Faros AI의 해설[1]은, 계산기 내에서 채택률이 높은 시나리오를 선택하면 CFR (change failure rate, 변경 실패율)이 5% → 6%, 최악의 경우 15%까지 악화되는 설정이 있다고 지적한다. J-Curve의 깊이와 길이는 조직이 설정한 가정에 따라 크게 움직인다.

이 프레임워크의 실용적인 용도는, CFO에게 「처음에는 적자가 나지만, 이미 고려된 사항이다」라고 사전에 합의해 두는 재료가 된다는 점이다. J-Curve를 모른 채 도입을 승인하면, 3~6개월 후의 지표 악화로 인해 프로젝트가 중단될 우려가 있다. 리포트 역시 executive summary에서 이러한 오독을 pulls funding during the inevitable dip (필연적인 하락기에 자금 지원을 중단함)이라고 표현하고 있다.

(필연적인 하락기에 예산을 중단함)이라고 쓰고 경고하고 있다.

verification tax (검증세)로 인해 리뷰 시간이 병목이 된다

J-Curve 하락의 3가지 요인 중 가장 무시되기 쉬운 것이 verification tax (검증세)이다. AI가 코드를 대량으로 작성하면, 그만큼 리뷰와 검증 시간이 필요해진다. 이는 컴퓨터 지표상에서 deployment frequency (배포 빈도)와 lead time (리드 타임)의 악화로 나타난다.

DORA 2025의 세로축 그래프에서 이러한 경향을 확인할 수 있다. Individual effectiveness (개인 효율성)가 가장 크게 성장했고, 그다음으로 Software delivery instability (소프트웨어 전달 불안정성)가 증가했다. 반면 Software delivery throughput (소프트웨어 전달 처리량)과 Team performance (팀 성과)는 거의 제로에 가깝다. 즉, 쓰는 속도는 빨라지지만 출하의 안정성은 떨어진다는 분포를 보인다.

출처: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 4. CC BY-NC-SA 4.0

외부 연구도 이와 일치한다.

METR의 2025년 7월 실험[2]. 경험이 풍부한 OSS 개발자가 AI를 사용했을 때 태스크 완료 시간이 19% 증가했다. 정작 본인들은 "20% 단축했다"고 느끼고 있었다. 주관과 객관 사이에 총 39포인트의 차이가 발생한 것이다. METR은 2026년 2월에 보충 설명을 통해 선택 편향(selection bias)을 인정했으며, 재시험 결과는 -4% (재현 어려움)로 나타났다고 밝혔다. 따라서 이를 단독 결정타로 보기보다는 검증 비용에 대한 방증으로 읽어야 한다. -
Veracode의 2025 GenAI Code Security Report. AI 생성 코드의 **45%**가 OWASP Top 10 취약점을 포함하고 있다. Java에서는 72%, XSS (CWE-80)에서는 86%가 방어에 실패했다. 인간이 리뷰하지 않고 머지(merge)한다면, 후속 공정에서 수정 비용이 발생한다. -
GitClear의 AI Copilot Code Quality 2025. 2억 1,100만 행을 분석한 결과, 복사-붙여넣기 코드가 8.3%에서 12.3%로, 2주 이내 재작성률이 5.5%에서 7.9%로 증가했다.

DORA 보고서 본문에서는 이들을 직접 언급하지 않고, instability tax (불안정세)라는 별도의 개념으로 동일한 현상을 컴퓨터 지표에 포함시킨다. CFR(변경 실패율)이 올라가고 FDRT (Failed Deployment Recovery Time, 배포 실패 복구 시간)가 늘어나면, 다운타임 비용이 자동으로 마이너스 ROI가 된다.

그린필드와 브라운필드에서 완전히 다르다

보고서 내에 조심스럽지만 놓쳐서는 안 될 문장이 하나 있다.

while artificial intelligence yields a 35–40% productivity gain on simple, greenfield tasks, its impact on complex, legacy brownfield code is often 10% or less.

(번역: AI는 단순한 그린필드(greenfield) 작업에서는 35~40%의 생산성 향상을 가져오는 반면, 복잡한 레거시 브라운필드(brownfield) 코드에 미치는 영향은 종종 10% 이하에 그친다.)

신규·단순 코드에서는 35~40%의 생산성 향상, 복잡한 기존·레거시 코드에서는 10% 이하. 스탠퍼드 대학교의 Yegor Denisov-Blanch 등이 약 10만 명의 개발자 텔레메트리(telemetry)를 분석한 연구[3]가 출처이며, 보고서도 본문에서 이를 언급하고 있다.

CFO에게 $11.6M의 리턴 전망치를 제시하려면, 자사의 코드베이스를 신규/레거시로 가중치를 두어 계산해야 한다. 가중치를 두지 않으면 예상 생산성 향상 폭이 최대 4배까지 어긋날 수 있다. 500명 규모의 조직이라도 레거시 비중이 높다면 ROI 39%는 과대평가된 수치가 된다.

ROI 39%는 4가지 가정이 뒷받침한다

컴퓨터의 구조는 단순하다.

First year benefit = First year return − First year investment
First year ROI (%) = First year benefit / First year investment
First year return = Headcount reinvestment capacity
...

보고서는 시종일관 이렇게 기술한다.

이러한 계산을 엄격한 수학 공식이 아니라, 대화를 시작하기 위한 불확실성이 높은 추정치로 취급하십시오.

訳: これらの計算は厳密な数式ではなく、会話のきっかけにするための不確実性の高い見積もりとして扱え。

ROI 39%가 나오는 원인은 4가지 가정에 있습니다.

가정	기본값	조정 가능 범위
`Idea success rate` (아이디어 성공률)	33%	Larsen 등[4]의 A/B 테스트 실패율 리뷰를 참조. 많은 기업에서施策(시책) 성공률은 1~3할이라는 업계 지견의 대표값
`Revenue impact per successful feature` (성공적인 기능당 매출 영향)	0.01%~1%	기능 1개로 매출 1%를 움직이는 것은 상당히 낙관적임
`J-Curve productivity drop` (J-커브 생산성 저하)	15% × 3개월	5% × 1개월 또는 30% × 6개월이 될 수도 있음
`Cost of downtime per hour` (시간당 다운타임 비용)	$100K/h	B2B SaaS 중앙값. 결제 관련 시스템이라면 단위가 달라짐

샘플 값으로 39%가 나오는 이유는 4가지 모두를 '잘 정돈된 조직'이라는 가정에 맞추었기 때문입니다. 가정 하나만 바꾸어도 ROI의 부호나 자릿수가 변합니다.

727%는 DORA가 아니라 Google Cloud 조사 수치입니다

본문에 단 한 번 큰 숫자가 등장합니다.

Google Cloud customers found an average of 727% return on their investment in Google Cloud AI in three years.

訳: Google Cloud の顧客は、Google Cloud AI への投資に対し3年で平均727%のリターンを得た.

이것은 DORA의 계산 결과가 아니라, 별도의 보고서인 Google Cloud "The ROI of AI 2025" (National Research Group 위탁 조사, 24개국 3,466명 대상)의 수치입니다. Rich Turrin처럼 IDC 기반의 자기 보고 편향 (Self-reporting bias)을 의심하는 목소리도 있습니다[5]. DORA 보고서 단독 수치 (ROI 39%, Payback 8개월)와는 수치 수준이 다르므로, 인용할 때는 출처를 구분하는 것이 안전합니다.

참고로 추론 비용 (Inference cost)은 Stanford AI Index에 따르면 2022년 11월 → 2024년 10월 사이 약 280배 하락했습니다 (GPT-3.5와 동등한 품질 기준 $20 → $0.07/1M tokens)[6]. 라이선스 및 토큰 비용은 해가 갈수록 ROI 계산의 주역에서 벗어나고 있습니다. 보고서는 ROI 계산에서 계속 남게 될 항목을 거버넌스 비용 (검증세, 워크플로우 적응, 재학습)으로 꼽고 있습니다.

계산기에 자사의 FTE (Full-Time Equivalent), 급여, 포트폴리오 매출, 다운타임 단가를 넣어 한 번 돌려보면, ROI 값 그 자체보다 어떤 가정을 움직였을 때 ROI의 부호나 자릿수가 변하는지를 알 수 있습니다. 보고서 자체도 이러한 민감도 확인 (Sensitivity analysis) 용도를 상정하고 있습니다.

국내 관련 논의로는, mtx2s의 「AI로 가속하는 개인, 성장하지 않는 딜리버리」가 DORA 2025 본문에 대한 해석으로서 유사한 문제 의식을 다루고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기