AI 시대에 가장 가치 있는 QA 기술은 사고하는 능력이다

몇 년 전만 해도 테스트 분야에서의 AI는 미래적인 담론이었습니다. 하지만 이제는 일상적인 이야기가 되었습니다. 직장에서 AI를 사용하는 미국 직원의 비율은 약 5분의 1에서 거의 절반으로 2년 만에 두 배 이상 증가했습니다. 매주 새로운 모델, 새로운 코딩 어시스턴트(coding assistant), 또 다른 "AI 기반" 테스트 플랫폼이 등장하며, 엔지니어와 테스터가 곧 사라질 것이라는 확신에 찬 예측도 하나씩 더해지고 있습니다.

그래서 질문은 계속됩니다. AI가 테스터를 대체하게 될까요?

솔직한 진실은... 부분적으로는 그렇다는 것입니다. 테스트의 중요성이 사라지기 때문도 아니고, 인간의 판단력이 갑자기 쓸모없어지기 때문도 아닙니다. 테스트 업무의 상당 부분이 항상 결정론적(deterministic)이었기 때문이며, 결정론적인 업무야말로 바로 AI가 번창하는 영역이기 때문입니다. 진짜 변화는 AI가 QA를 대체하느냐의 문제가 아니었습니다. 테스터가 AI와 함께 일하는 법을 배우느냐의 문제입니다.

진짜 격차는 AI 대 테스터가 아니다

보통 프레임(framing)이 잘못 설정되어 있습니다. 이는 AI 대 인간, 자동화 대 수동, 또는 기계 대 엔지니어의 대결이 아닙니다.

실제로 중요한 격차는 적응하는 테스터와 적응하지 못하는 테스터 사이의 격차이며, 노동 데이터는 이미 이러한 현상이 일어나고 있음을 보여줍니다. 2019년부터 2025년 초까지의 거의 모든 미국 구인 공고를 분석한 Harvard Business School 워킹 페이퍼(working paper)에 따르면, ChatGPT 출시 이후 구조화되고 반복적인 작업이 많은 직무에 대한 수요는 약 13% 감소한 반면, 분석적, 기술적, 창의적 업무를 기반으로 하는 역할에 대한 수요는 약 20% 증가했습니다. 저자의 해석은 직설적입니다. AI는 단순히 일자리를 없애는 것이 아니라, 인간과 AI의 협업이 핵심인 업무로 수요를 이동시키고 있습니다.

요약하자면 그것이 바로 격차입니다. AI를 잘 활용하는 엔지니어들은 아이디어를 생성하고, 더 빠르게 디버깅(debugging)하며, 엣지 케이스(edge cases)를 더 일찍 탐색하고, 반복적인 작업을 자동화하며, 단순히 더 많은 결과물을 만들어내며 더 빠르게 움직이고 있습니다. 그 외의 사람들은 여전히 AI를 단순한 눈속임(gimmick)이나 실존적 위협으로 취급하며 정체되어 있습니다. AI는 그 어느 쪽도 아닙니다. AI는 부조종사(co-pilot)이며, 이 차이가 매우 중요하다는 것이 밝혀졌습니다.

인공지능(Artificial intelligence)이 아닌 증강 지능(Augmented intelligence)

많은 AI 관련 대화는 매우 다른 두 가지 개념을 하나의 단어로 뭉뚱그려 버립니다. 인간을 증강(augment)하는 AI가 있고, 인간을 대체(replace)하는 AI가 있는데, 오늘날 사람들이 실제로 AI로 수행하는 대부분의 작업은 첫 번째 유형에 해당합니다. 수백만 건의 실제 Claude 대화를 분석하는 Anthropic의 경제 지표(Economic Index)에 따르면, 첫 번째 보고서에서 사용 양상이 증강(augmentation) 쪽으로 기울어 약 57% 대 43%의 자동화(automation) 비율을 보였으며, 1년 후에도 여전히 증강 중심(약 52% 대 45%)이었습니다.

이 분리는 도구에 따라서도 나타납니다. 대화형 앱은 협업(collaborative) 쪽으로 치우치는 반면, 자율 코딩 에이전트(autonomous coding agent)인 Claude Code는 자동화 비율이 79%에 더 가까웠습니다. 하나의 데이터셋에 이 모든 차이가 담겨 있습니다. 증강 지능(Augmented intelligence)은 인간을 통제 하에 두면서도 그 능력을 더 향상시킵니다. Tesla의 오토파일럿(Autopilot), AI 보조 진단, 디버깅 어시스턴트가 그 예입니다. 시스템은 도움을 주지만, 최종 결정은 여전히 인간의 몫입니다.

QA 엔지니어들은 이를 이해하기에 유난히 유리한 위치에 있습니다. 왜냐하면 테스트는 언제나 검증(validation), 회의론(skepticism), 그리고 리스크(risk)를 바탕으로 이루어져 왔기 때문입니다. 우리는 이미 신뢰도(confidence), 확인(verification), 엣지 케이스(edge cases), 그리고 실패 조건(failure conditions)의 관점에서 사고합니다. AI 시대에 이러한 본능은 가치가 떨어지는 것이 아니라 더욱 귀해집니다.

결정론적 작업(Deterministic work) 대 비결정론적 사고(Indeterministic thinking)

이것이 저에게 이 모든 상황을 재구성하게 만든 사고 모델(mental model)입니다.

AI는 결정론적 작업 (deterministic tasks), 즉 명확한 패턴, 반복 가능한 구조, 그리고 정의된 성공 기준이 있는 작업에 매우 뛰어납니다. 그리고 AI는 이러한 작업들을 매우 빠르게 개선하고 있습니다. METR 연구에 따르면, AI 에이전트가 50%의 신뢰도로 완료할 수 있는 작업의 길이는 지난 6년 동안 약 7개월마다 두 배씩 증가해 왔습니다. 우리에게 가장 중요한 세부 사항은 그 신뢰도가 어디에 위치하느냐 하는 점입니다. 동일한 모델들이 인간이 약 4분 미만으로 수행하는 작업에서는 100%에 가까운 점수를 기록하지만, 인간이 약 4시간 이상 소요하는 작업에서는 10% 미만의 점수를 기록합니다. 그 절벽이 바로 실제 데이터로 그려진 결정론적/비결정론적 (deterministic/indeterministic) 경계선입니다. AI는 범위가 명확하고 짧은 작업은 압도적으로 잘 수행하지만, 작업이 길어지고 모호해지면 무너집니다.

테스트와 인접한 업무에서도 이러한 이동이 일어나고 있음을 볼 수 있습니다. Anthropic의 사용 데이터에 따르면, 새로운 코드를 생성하는 데 소비되는 상호작용의 비중은 두 배 이상 증가(4.1%에서 8.6%로)한 반면, 디버깅(debugging) 및 수정에 소비되는 시간은 감소했습니다. 이는 일상적인 결정론적 작업이 꾸준히 기계로 넘어가고 있다는 신호입니다.

AI가 여전히 어려움을 겪는 부분은 비결정론적인 것들, 즉 모호함, 비즈니스 맥락, 트레이드오프 (tradeoffs), 그리고 리스크 허용 범위 (risk tolerance)가 스며든 결정들입니다.

이 기능을 출시해야 할까요?

이 정도의 리스크가 수용 가능한 수준인가요?

이 워크플로우가 실제 사용자에게 정말로 의미가 있나요?

우리가 제대로 된 것을 테스트하고 있는 게 맞나요?

이 중 그 어느 것도 패턴 매칭 (pattern-matching) 문제로 해결할 수 있는 것이 아닙니다.

이러한 문제들은 판단력 (judgment)을 필요로 하며, 판단력은 여전히 완고하게 인간의 영역으로 남아 있습니다.

내가 실제로 오늘날 AI를 사용하는 방법

요즘 Claude Code는 우리의 소프트웨어 개발 생명주기 (Software Development Lifecycle, SDLC)의 모든 단계에 스며들어 있으며, 우리가 이를 사용하는 방식의 형태가 핵심입니다. 이것은 단순히 "이제 AI가 테스트를 작성한다"는 의미가 아닙니다. 기계가 빠르게 움직이고, 인간이 모든 인수인계 단계에서 제어권을 유지하는 루프 (loop)입니다.

실제로 이는 네 가지 단계로 나뉘며, 티켓(ticket)의 크기와 난이도에 따라 우리는 이 중 하나 또는 모든 단계에서 AI를 활용할 수 있습니다.

Planning (계획). 저는 Model Context Protocol (MCP) 통합을 통해 Claude가 Linear 티켓을 직접 가리키도록 할 수 있습니다. MCP는 제가 컨텍스트를 복사해서 붙여넣는 대신, Claude가 이슈 트래커와 같은 도구로부터 직접 읽을 수 있게 해주는 개방형 표준(open standard)입니다. 거기서부터 Claude는 티켓을 읽고, 우리의 기존 Cypress 스위트(suite)를 검토하며, 커버리지를 업데이트하거나 새로운 테스트를 추가해야 할 위치를 문서화합니다. 백지 상태에서 시작하는 대신, 저는 논쟁하며 다듬을 수 있는 초안에서 시작합니다.

Writing (작성). 다음으로 저는 Claude Skills를 활용하여 우리의 Cypress 컨벤션(convention)에 맞게 테스트를 작성하도록 할 수 있습니다. Skills는 기본적으로 패키지화된 노하우로, Claude가 필요할 때마다 불러오는 베스트 프랙티스(best practices)와 예시들이 담긴 폴더입니다. 이를 통해 테스트는 Claude가 추측한 일반적인 보일러플레이트(boilerplate)가 아니라, 우리가 구조를 잡는 방식과 일치하게 생성됩니다.

Debugging (디버깅). 무언가 불안정하게 작동(flake)하거나 실패할 때, 저는 Claude에게 증거를 제시합니다. GitHub에서의 CI 실행 결과나, 로컬의 스크린샷 및 스택 트레이스(stack trace) 같은 것들 말이죠. Claude는 분류(triage) 과정의 패턴 매칭(pattern-matching) 부분에서 진정으로 빠릅니다. 커피 세 잔을 마시고 정신이 혼미해진 금요일 오후 4시의 저보다도 더 빠릅니다.

Review (리뷰). 또한 저는 별도의 세션에서 변경 사항을 리뷰하도록 할 것입니다. 이전 대화를 전혀 보지 못한 새로운 컨텍스트(context)를 제공함으로써, 첫 번째 대화의 메아리가 아닌 진정한 '제2의 눈' 역할을 하게 합니다.

이 모든 과정을 관통하는 실타래는 인간의 검증(human validation)입니다. 모든 단계에는 수동 체크포인트(manual checkpoint)가 있습니다. 저는 계획을 읽고, 테스트 설계에 대해 반론을 제기하며, 수정 사항을 건전성 검사(sanity-checking)합니다. 우리는 이러한 구조를 가시적으로 유지하기 위해 Superpowers라는 플러닝 플러그인을 사용하지만, 도구 자체는 원칙보다 훨씬 덜 중요합니다. 체크, 입력, 그리고 최종 결정은 사람의 몫으로 남습니다.

가치는 AI가 내 역할을 대체했다는 점에 있지 않았습니다. AI는 내가 이미 잘하고 있던 부분들을 증폭시켰고, 내가 선택한 바로 그 티켓들에 대해 더 빠르게 움직일 수 있게 해주었습니다.

확신은 정답이 아니다

업계가 여전히 과소평가하고 있는 부분이 여기 있습니다.

나쁜 코드는 아주 오래전부터 존재해 왔습니다.

새로운 위험은 AI가 가끔 틀린다는 것이 아니라, 기계가 너무나 확신에 찬 어조로 말하기 때문에 사람들이 출력물에 대해 의문을 제기하는 것을 멈춘다는 점입니다.

319명의 지식 노동자(knowledge workers)를 대상으로 한 Microsoft Research와 Carnegie Mellon의 연구에 따르면, 사람들이 AI를 더 많이 신뢰할수록 비판적 사고 (critical thinking)를 덜 적용하는 반면, 자신의 전문 지식을 더 신뢰할수록 결과물을 더 면밀히 조사한다는 사실이 밝혀졌습니다. 동일한 연구는 AI가 비판적 사고를 제거하는 것이 아니라, 정보를 검증하고, 응답을 통합하며, 전체적인 과업을 관리하는 방향으로 비판적 사고의 위치를 옮긴다는 것을 발견했습니다. 즉, 사고 자체가 사라지는 것이 아니라, 테스터들이 이미 활동하고 있는 바로 그 영역으로 이동하는 것입니다.

AI는 깔끔한 코드, 세련된 요약, 권위 있는 권장 사항과 같이 확신에 찬 답변을 생성하는 데 놀라울 정도로 능숙합니다. 하지만 확신 (confidence)과 정확성 (correctness)은 서로 다른 것이며, 테스트에 있어서 그 간극은 모든 것을 결정합니다. 업무의 본질은 결과물을 만들어내는 것이 아니라, 그것에 의문을 제기하는 것이었습니다. 이 시대의 아이러니는 정답을 생성하기가 쉬워질수록, 그 정답에 도전하는 것이 더욱 가치 있게 된다는 점입니다.

바로 그 지점에서 안주하는 마음 (complacency)이 스며듭니다. 시간이 흐르면서 생성된 코드를 확인하지 않고 수용하거나, 설명을 너무 빨리 신뢰하거나, 심층적인 조사를 건너뛰거나, 추론 자체를 조용히 외주 주는 일이 쉬워집니다. 그리고 AI가 발전할수록 그러한 수동성은 더욱 위험해집니다. 왜냐하면 틀린 답이 더 이상 명백하게 틀려 보이지 않게 되기 때문입니다.

경보를 울리지 않는 실패 모드(failure modes)를 생각해 보십시오. AI는 모든 단위 테스트(unit test)가 통과되었으며 커버리지(coverage)가 100%라고 말합니다. 새로운 규제 요구 사항을 아무도 테스트하지 않았다는 사실을 깨닫거나, 워크플로우(workflow)가 기술적으로는 작동하지만 접근성(accessibility) 측면에서 실패했거나, UI 자동화는 통과(green) 상태인데 실제 사용자 경험은 엉망인 상황을 발견하기 전까지는 안심이 될 것입니다. 이것들은 결정론적 실패(deterministic failures)가 아닙니다. 그것들은 판단의 실패(judgment failures)입니다. 이것이 바로 사고하는 능력이 지금 더 가치 있는 이유입니다.

가장 가치 있는 기술은 더 이상 실행이 아니다

수년 동안 테스트 인터뷰는 도구 지식, 프레임워크(framework) 경험, 그리고 자동화를 얼마나 빨리 구현할 수 있는지에 의존해 왔습니다. 그것도 여전히 중요합니다. 하지만 AI가 반복적인 구현 작업을 더 많이 흡수함에 따라, 차별화 요소는 속이기 더 어려운 것들, 즉 추론(reasoning), 분해(decomposition), 검증(validation), 조사(investigation), 커뮤니케이션(communication), 회의론(skepticism)으로 이동합니다.

한 마디로, 사고(thinking)입니다.

향후 10년 동안 번창할 테스터는 스크립트를 가장 빠르게 타이핑하는 사람이 아닐 것입니다. 그들은 더 나은 질문을 던지고, 더 나은 리스크를 포착하며, 출력을 신뢰하는 대신 검증하고, AI가 언제 틀리는지 알 수 있을 정도로 시스템을 깊이 이해하며, 자신의 판단력을 기계의 속도와 결합하는 사람들일 것입니다. 그 조합은 타의 추종을 불허합니다.

AI 테스트는 그 자체로 하나의 전문 분야가 되고 있다

주목할 만한 또 다른 변화는 우리가 단순히 AI를 사용하는 것을 넘어, AI를 테스트하고 있다는 점입니다. 그리고 AI 시스템은 입력 A가 신뢰할 수 있는 출력 B를 생성한다는, 전통적인 자동화가 기반을 두고 있는 가정을 깨뜨립니다. 출력은 가변적입니다. 신뢰도는 요동칩니다. 모델은 드리프트(drift)합니다. 엣지 케이스(edge cases)는 이진법(binary) 대신 확률적(probabilistic)으로 변합니다.

이로 인해 QA는 다른 도구 세트(toolkit)를 향해 나아가고 있습니다: 반복 실행 검증(repeated-run validation), 신뢰 임계값(confidence thresholds), 드리프트 모니터링(drift monitoring), 적대적 테스트(adversarial testing), 골든 데이터셋(golden datasets), 불확실성 관리(uncertainty management). 그리고 이것은 더 이상 비주류가 아니며, 이제 이를 위한 공식적인 구조(scaffolding)가 마련되어 있습니다.

NIST AI Risk Management Framework를 살펴보십시오. NIST(미국 국립표준기술연구소)는 전 산업계가 조용히 따르고 있는 기술 표준을 작성하는 연방 기관이며, 이 기관이 프레임워크를 발표하면 그 프레임워크는 다른 모든 이들이 수렴하게 되는 공유된 기준선(baseline)이 되는 경향이 있습니다. 따라서 NIST가 이제 동일한 메커니즘을 AI에 적용했다는 사실은 시사하는 바가 큽니다. 2023년에 발표되고 이후 전용 생성형 AI 프로파일(generative-AI profile)로 확장된 이 프레임워크는 문제를 거버넌스(govern), 매핑(map), 측정(measure), 관리(manage)라는 네 가지 기능 중심으로 구성합니다.

그리고 이 네 가지 기능이 실제로 무엇인지 보십시오. 이는 단순히 누르는 버튼이 아니라, 판단(judgment calls)의 영역입니다.

**거버넌스 (Governing)**는 어느 정도의 리스크가 허용 가능한지를 결정하는 것을 의미합니다.
**매핑 (Mapping)**은 시스템이 작동하는 맥락(context)을 이해하는 것을 의미합니다.
**측정 (Measuring)**은 무엇을 측정할 가치가 있는지 선택하고, 그 결과를 정직하게 읽어내는 것을 의미합니다.
**관리 (Managing)**는 트레이드오프(tradeoffs)를 저울질하고 무엇을 실행에 옮길지 결정하는 것을 의미합니다.

AI 테스트를 위한 정부 지원 공식 청사진은 결국 구조화된 인간의 판단을 위한 청사진임이 드러났습니다. 이는 앞서 언급한 모든 내용에 대한 조용한 확인입니다. 표준화 기구조차 AI를 테스트하는 방법을 기록할 때, 그들이 기록하는 것은 실행(execution)이 아닌 사고(thinking)에 기반한 규율입니다.

마치며

많은 사람이 AI가 자신을 대체하기까지 얼마나 걸릴지 묻고 있습니다.

더 유용한 질문은 우리가 AI와 함께 어떻게 진화할 것인가입니다.

QA의 미래는 아마도 완전히 인간에 의해서만 이루어지거나 완전히 자율적으로 이루어지는 것이 아니라, 협업(collaborative)의 형태가 될 것입니다. 성공하는 테스터는 AI를 피하는 사람도 아닐 것이며, 자신의 판단력을 AI에 양도해 버리는 사람도 아닐 것입니다.

그들은 사고를 넘겨주지 않으면서 AI를 사용하는 사람들이 될 것입니다. 왜냐하면 생성된 답변이 범람할 산업에서, 그 답변들에 의문을 제기하는 능력이야말로 존재할 수 있는 가장 가치 있는 QA 기술일지도 모르기 때문입니다.