2030년의 QA: 무엇이 변하고, 무엇이 남으며, 무엇이 사라질 것인가

소프트웨어를 구축하는 비용은 저렴해지고 있습니다. 하지만 그것을 신뢰하는 비용은 그렇지 않습니다.

BrowserStack의 Breakpoint 세션에서 _Mobin Thomas_가 남긴 말입니다. 이 문장은 제 머릿속을 떠나지 않았습니다.

이것은 단순한 예측이 아닙니다. 소프트웨어 품질(Software Quality) 분야에서 일하는 모든 이들에게 다가올 향후 10년의 구조적 현실입니다. 특히 무시하기 어려운 한 가지 전망이 있었습니다. 2026년에서 2030년 사이에 소프트웨어 구축 비용은 급격히 하락하는 반면, 신뢰(Trust)를 구축하는 비용은 변하지 않는다는 내용이었습니다. 그 벌어지는 격차야말로 품질 공학 (Quality Engineering)이 존재하게 될 지점입니다.

질문은 AI가 QA를 변화시킬 것인가가 아닙니다. AI는 이미 변화시켰습니다. 진짜 질문은 정확히 무엇이 변하고, 무엇이 그대로 유지되며, 무엇이 조용히 사라질 것인가 하는 점입니다.

이미 변화하고 있는 것들

세 가지 힘이 소프트웨어 구축 비용을 압축하고 있으며, 이들은 단순히 더해지는 것이 아니라 서로를 증폭시킵니다.

첫 번째는 **실리콘 (Silicon)**입니다. 추론 (Inference) 비용은 매년 대략 10배씩 하락하고 있습니다. AI는 이전에는 경제적으로 타당하지 않았던 영역에서도 경제성을 갖추게 되고 있으며, 이는 하류 (Downstream)의 모든 것을 변화시킵니다.

두 번째는 **에이전틱 스택 (Agentic Stack)**입니다. 코드 생성 (Code generation), 코드 리뷰 (Code review), 테스트 생성 (Test generation), 로그 분류 (Log triage), 결함 라우팅 (Defect routing). 이 모든 것들이 이전 비용의 아주 작은 부분으로 축소되고 있습니다. 팀이 며칠씩 걸려 수행하던 작업들이 몇 시간 단위로 압축되고 있습니다.

세 번째는 **도구의 확산 (Tooling proliferation)**입니다. 소프트웨어 개발 생명주기 (Software development lifecycle)의 모든 계층에 이제 에이전트 (Agentic) 옵션이 존재합니다. 대부분은 평범하지만, 일부는 탁월합니다. 2028년까지는 뒤처지는 이들조차 그 격차를 좁힐 것으로 예상됩니다. 그런 일이 발생하면, 차별점은 어떤 도구를 사용하는가가 아니라, 그 도구를 사용할 때 당신이 발휘하는 판단력의 품질로 이동하게 될 것입니다.

현재 우리는 **증강 (Augmentation)**이라 불리는 단계에 있습니다. AI는 인간과 나란히 자리하며, 인간은 여전히 의사 결정권자로 남습니다. 요구사항으로부터의 테스트 생성 (Test generation from requirements), 셀프 힐링 로케이터 (self-healing locators), 로그 분류 어시스턴트 (log-triage assistants) 등이 이미 파이프라인에 내장되어 있습니다. 초기 도입자들은 이미 의미 있는 생산성 향상을 보고하고 있습니다. 기술적 변화는 여기서부터 시작됩니다. 프롬프팅 (prompting), 평가 (evaluation), 그리고 리뷰 (review)가 일상적인 역량이 됩니다. 특정 도구에 특화된 전문 지식의 가치는 하락하기 시작합니다.

2027년이 되면, 위임 (Delegation) 단계가 도래합니다. 에이전트 (Agents)가 업무의 제한된 영역을 처음부터 끝까지 책임집니다. 에이전트가 티켓을 읽고, 테스트를 생성하고, 이를 실행하며, 결함을 보고하고, 수정안을 제안하고, 이를 검증합니다. 이는 QApilot과 같은 플랫폼들이 이미 탐색하기 시작한 방향입니다. 인간은 승인자 (approvers), 예외 처리자 (exception handlers), 그리고 에이전트 생태계의 관리자 (stewards)가 됩니다. 이 단계에서 가장 어려운 문제는 핸드오프 (handoff), 즉 에이전트가 언제 문제를 에스컬레이션 (escalate)할 것인가 하는 점입니다. 누구에게? 어떤 컨텍스트 (context)와 함께? 이것이 진정한 엔지니어링 작업이며, 오늘날 대부분의 조직에서는 이 작업이 거의 이루어지지 않고 있습니다.

2029년이 되면, 우리는 **거버넌스 (Governance)**라고 불리는 단계에 있게 될 것입니다. 코드는 스스로 치유(self-heals)되고, 배포는 행동 증거 (behavioural evidence)에 따라 지속적이고 조건부로 이루어지며, 프리 프로덕션 (pre-production)은 점점 더 시뮬레이션 (simulation)에 자리를 내어줍니다. QE (Quality Engineering)는 더 이상 소프트웨어를 테스트하지 않습니다. QE는 소프트웨어가 존재할 권리를 얻기 위해 충족해야 하는 조건을 정의합니다.

모든 산업이 AI 기반 QA의 동일한 단계에 동시에 도달하는 것은 아니며, 이는 전적으로 괜찮은 일입니다. 소비자용 앱, 리테일 플랫폼, 또는 내부 비즈니스 도구를 구축하는 기업들은 빠르게 움직일 여유가 있습니다. 무언가 고장 나더라도 그 피해는 대부분 재정적 손실, 부정적인 리뷰, 고객 이탈, 혹은 빠른 수정 정도로 그칠 수 있기 때문입니다. 이러한 팀들에게 AI 기반 품질 엔지니어링 (quality engineering)의 가장 진보된 단계는 기술이 준비되었을 때 대략적으로 도래하게 됩니다.

하지만 국방, 의료, 금융 서비스와 같은 산업 분야는 다르게, 그리고 의도적으로 다르게 작동합니다. 이러한 환경에서 소프트웨어가 실패할 경우, 그 결과는 단순히 나쁜 리뷰를 받는 수준을 훨씬 넘어섭니다. 거래 시스템의 잘못된 계산, 핵심 인프라의 보안 공백, 의료 상황에서의 오류 등은 패치 하나로 회복할 수 있는 문제가 아닙니다. 따라서 이러한 산업들은 단순히 기술적 역량에 맞추는 것이 아니라, 규제에 맞춘 속도로 움직입니다. 두 가지 타임라인 모두 타당합니다. 어느 쪽도 미래에 접근하는 잘못된 방식은 아닙니다.

남는 것: AI가 복제할 수 없는 것들

예측은 명확했습니다: 실행(execution)은 컴퓨팅 자원(compute)과 함께 확장되지만, 판단(judgment)은 그렇지 않습니다.

세 가지 요소는 줄일 수 없는 인간 고유의 영역으로 남습니다.

**판단(Judgment)**은 에이전트(agent)가 무언가를 구축하려고 시도하기 전에 '무엇이 좋은 것인지'를 이해하는 능력입니다. 이 도메인에서, 이 고객에게, 그리고 이런 종류의 화요일에 '출시하기에 충분히 좋은 상태'란 어떤 모습일까요? 에이전트는 결과물을 만들어낼 수 있습니다. 하지만 그 질문에 신뢰할 수 있고 일관되게 답할 수는 없습니다.

다시 말해, **상상력(Imagination)**은 에이전트가 보지 못할 실패를 보는 것입니다. 악의적인 사용자가 무엇을 할지, 혼란에 빠진 사용자가 무엇을 시도할지, 규제 기관이 무엇을 찾을지 질문하는 것입니다. 소프트웨어가 고장 났을 때, 청구가 거부되거나 거래가 미끄러지는 상황에 처한 상대방을 상상하는 것입니다. 적대적 상상력(Adversarial imagination)과 실패에 대한 공감(empathy)은 여전히 깊이 인간적인 능력으로 남을 것입니다. 이는 프롬프트(prompt)를 통해 존재하게 만들 수 있는 특성이 아닙니다.

**경험(Experience)**은 컴퓨팅 자원이 합성할 수 없는 패턴 인식입니다. 도메인 깊이(Domain depth)란 광범위한 추상화가 아니라, 당신의 산업에 특화된 실패 모드(failure modes)를 구체적인 현실로서 아는 것을 의미합니다. 한 문구가 이를 잘 포착했습니다: 바로 **흉터 조직(scar tissue)**입니다. 당신은 이 패턴이 이전에 깨지는 것을 본 적이 있습니다. 무엇이 잘못될지 정확히 알고 있습니다. 그것이 경험의 가치입니다.

이는 흥미로운 질문을 던집니다: 몇 년이 지난 후에도 경험은 여전히 중요할까요? 그 답은 전적으로 경험의 종류가 무엇인지에 달려 있습니다.

**절차적 경험 (Procedural experience)**은 빠르게 가치가 하락합니다. 2018년의 특정 Selenium 패턴, 특정한 Jira 워크플로우, 도구 자격증, 니치(niche)한 테스트 관리 인터페이스 등이 이에 해당합니다. 이러한 것들은 범용화(commoditised)되고 있습니다. 반면, **판단 경험 (Judgment experience)**은 가치가 상승합니다. 분기의 특정 시점에 이루어지는 특정 종류의 릴리스가 항상 특정한 방식으로 문제를 일으킨다는 것을 아는 것, 특정 도메인에서

또 다른 부분은 트랜잭션을 점수화하는 방식을 지속적으로 업데이트하는 적응형 AI 모델 (adaptive AI model)입니다. 한 번 인증하고 잊어버릴 수 있는 고정된 버전은 존재하지 않습니다. 신뢰는 정적인 검증 (static validation)이 아니라, 특히 이례적인 조건 하에서 시스템이 시간이 지남에 따라 어떻게 행동하는지를 관찰함으로써 얻어집니다.

두 시스템은 동일한 작업을 수행하지만, 근본적으로 다른 방식으로 신뢰를 얻습니다. 만약 판단력, 상상력, 그리고 신뢰가 희소 자원이 된다면, 다음 질문은 누가 이를 제도화할 책임을 질 것인가 하는 점입니다. 그 답은 소프트웨어 팀의 구조 자체를 재편할 가능성이 높습니다.

2030년의 스탠드업(Standup)에는 누가 참여하는가?

이러한 궤적이 유지된다면, 세 가지 역할이 점점 더 중요해질 것입니다.

보통 시니어급이며 종종 전직 리드 SDET (Software Development Engineer in Test)인 **품질 아키텍트 (Quality Architect)**는 에이전트 (agents)가 준수해야 하는 행동 사양 (behavioural specifications)을 작성합니다. 이 사람은 주요 시스템에 대한 신뢰 계약 (trust contracts)을 소유하며, 개발자보다는 제품 (product) 측과 더 많이 소통합니다. 이들은 테스트 스크립트를 작성하는 것이 아닙니다. 각 시스템에 대해 신뢰할 수 있다는 것이 무엇인지를 부호화(codified)하고 서명하여 작성합니다.

새로운 역할이 등장할 수도 있습니다: 바로 **에이전트 컨덕터 (Agent Conductor)**입니다. 부분적으로는 SRE (Site Reliability Engineer), 부분적으로는 프롬프트 엔지니어 (prompt engineer), 그리고 부분적으로는 팀 리드 (team lead)의 성격을 띱니다. 이 사람은 프롬프트를 조정하고, 성능을 모니터링하며, 성능이 저하되는(drifting) 에이전트를 퇴출시키고, 자율 에이전트와 팀 간의 협력 관계를 유지함으로써 에이전트 함대 (agent fleet)를 매일 운영합니다.

**도메인 권위자 (Domain Authority)**는 전문 지식이 쉽게 범용화(commoditised)될 수 없는 도메인 전문가입니다. 이 사람은 숙련된 장인이 자신의 재료를 잘 알고 있듯이 의료 청구, 거래 메커니즘 또는 통신 프로비저닝 (telecom provisioning)을 꿰뚫고 있습니다. 에이전트는 이러한 판단력을 학습할 수 있습니다. 하지만 그 판단력은 바로 여기서 시작됩니다.

각자의 위치에서 바라본 변화의 모습

이러한 변화의 영향은 당신이 어느 위치에 있느냐에 따라 달라집니다.

**실무자 (Practitioner)**에게 전달된 신호는 다음과 같습니다: 특정 도메인에 깊이 파고드는 팀이 자신의 입지를 지킬 것입니다. 도구는 범용화 (Commoditise) 되겠지만, 도메인 패턴 인식 (Domain pattern recognition)은 그렇지 않을 것입니다. 보험 청구, 거래 메커니즘 또는 통신 프로비저닝 (Telecom provisioning)을 이해하는 테스터는 에이전트 (Agent)가 학습할 수는 있지만 스스로 만들어낼 수는 없는 지식을 보유하고 있습니다. 그것이 바로 구축해야 할 포트폴리오입니다.

**리더 (Leaders)**에게 그것은 예산의 문제였습니다. 향후 18개월 동안 예상되는 변화는 지출의 중심을 도구 라이선스 및 스크립트 유지보수에서 행동 사양 (Behavioural specification) 역량 및 리스크 및 규제 관련 동료들과의 관계로 이동시킵니다. 규제가 완전히 도입되었을 때 거버넌스 (Governance) 역량이 없는 팀은 준비되지 않은 상태로 직면하게 될 것입니다. QE 리더들에게 신호는 명확했습니다. 만약 당신이 아직 리스크 및 컴플라이언스 (Compliance) 팀과 관계를 구축하고 있지 않다면, 당신은 이미 뒤처진 것입니다. 규제는 이러한 변화와 함께 진화하고 있습니다. 역사적으로 모든 주요 컴플라이언스 프레임워크는 품질 엔지니어링 (Quality engineering)의 범위를 확장해 왔습니다. AI Act 또한 행동 보증 (Behavioural assurance), 에이전트 거버넌스 (Agent governance), 그리고 추적성 (Traceability)에 관한 새로운 기대치를 도입함으로써 동일한 역할을 할 것으로 보입니다. 거버넌스 역량 구축을 미루는 팀은 주도하기보다는 대응하기에 급급한 상황에 처할 수 있습니다.

**경영진 (Executives)**에게 전달된 신호는 세 가지 중 가장 단순했습니다: 신뢰 (Trust)는 모델도, 컴퓨팅 자원 (Compute)도 아닌, 가장 희소한 투입 요소라는 점입니다. QE는 신뢰를 생산합니다. 2030년에는 신뢰가 소프트웨어를 판매하는 기준이 될 것입니다. 그에 맞춰 자금을 지원하십시오.

이미 그 길을 걷고 있는 중

품질 엔지니어링의 미래는 누가 가장 많은 테스트를 작성할 수 있느냐에 의해 정의되지 않을 것입니다. 점점 더 자율화되는 시스템에 어떻게 신뢰를 구축할 수 있느냐에 의해 정의될 것입니다. 그러한 변화는 이미 진행 중입니다.

품질 엔지니어링은 출력을 검증 (Verifying outputs)하는 것에서 행동을 거버넌스 (Governing behaviour)하는 것으로 이동하고 있습니다. 시스템이 더욱 자율화됨에 따라, 과제는 단순히 소프트웨어가 작동하는지 여부가 아니라, 조건이 변하더라도 계속 작동할 것이라고 신뢰할 수 있는지 여부로 바뀌고 있습니다.

QApilot과 같은 플랫폼들은 이미 그러한 변화를 반영하기 시작했으며, 신뢰를 마지막에 검증하는 것이 아니라 지속적으로 설계(engineered)되어야 하는 대상으로 취급하고 있습니다. 도구들은 진화할 것입니다. 에이전트(Agents)들은 더욱 유능해질 것입니다. 남는 것은 사람들이 신뢰할 수 있는 시스템에 대한 필요성입니다. 그것이 바로 품질 공학(Quality Engineering)이 나아가고 있는 미래이며, QApilot이 이미 걷고 있는 길입니다.

QA는 사라지지 않습니다. 더 높은 차원으로 올라갑니다.

AI는 QA를 대체하는 것이 아닙니다. AI는 QA를 소프트웨어 개발 생명주기(SDLC)에서 가장 전략적으로 중요한 기능으로 변모시키고 있습니다.

이 직업은 소프트웨어를 얼마나 저렴하게 구축할 수 있는가와 신뢰를 얻기 위해 얼마나 많은 비용을 지불해야 하는가 사이의 간극으로 이동하고 있습니다. 그 간극은 좁혀지지 않고 있습니다. 오히려 커지고 있습니다. 이 트렌드 자체는 무시하기 어렵습니다.

도구가 변하고 있습니다. 역할이 변하고 있습니다. 업무가 변하고 있습니다.

남는 것은 애초에 도구와는 전혀 상관없었던 부분입니다.