의사결정 차감 프레임워크: 모든 AI 도구를 평가하는 방법

지난주 누군가 저에게 어떤 AI 도구를 사용해야 하는지 물었습니다. 이 질문에는 실제 비용이 발생하는 문제가 숨겨져 있습니다. 한 사람이 평가할 수 있는 것보다 더 많은 역량을 가진 AI 도구들이 시중에 나와 있다는 점입니다.

ChatGPT Plus는 월 20달러, Claude는 20달러, Grok은 30달러, Cursor는 20달러, Copilot은 10달러입니다. 각 도구 아래에는 100달러, 200달러, 또는 300달러짜리 변형 모델들이 있습니다. 각각은 자신의 가치를 증명한다고 주장합니다.

진짜 질문은 어떤 도구가 최고인가가 아닙니다. 진짜 질문은 이것입니다: 어떤 도구가 더 많은 의사결정을 추가하는 대신, 더 많은 의사결정을 차감(subtract)하는가?

세 가지 관점

1. 대체 비율 (Replacement Ratio)

공식: 도구에 의해 대체된 의사결정 수 ÷ 도구가 생성하는 의사결정 수

도구가 당신을 대신해 내리는 모든 의사결정을 나열하십시오. 그런 다음 도구로 인해 당신이 강제로 내려야 하는 모든 새로운 의사결정을 나열하십시오. 첫 번째 값을 두 번째 값으로 나눕니다.

임계값 (Thresholds):

≥ 2.0 → 유지 (Keep)
1.0–2.0 → 평가 (Evaluate)
< 1.0 → 폐기 (Drop)

예시: 함수 본문을 작성해 주는 코드 완성 (Code completion) 도구가 있다고 가정해 봅시다. 이 도구는 구문, 구조, 명명 규칙에 관한 5개의 의사결정을 대체하지만, 검토 과정이 필요하여 2개의 의사결정(정확성 확인)을 추가한다면 비율은 2.5가 됩니다. 이는 통과입니다.

회의 요약 도구가 1개의 의사결정(다시 들어야 할까?)을 대체하지만, 3개의 의사결정(정확성 확인, 맥락 추가

임계값 (Threshold): 사용당 주의력 (Attention per use)은 시간이 지남에 따라 감소해야 합니다. 만약 한 번 사용했을 때보다 열 번 사용한 후에 더 주의 깊게 살펴봐야 한다면, 무언가 잘못된 것입니다.

이 프레임워크가 당신에게 거짓말을 하는 지점

나는 내가 찾을 수 있는 가장 까다로운 사례들을 대상으로 이 프레임워크를 테스트했습니다. 다섯 가지 측면에서 실패했습니다. 이 실패 지점들을 아는 것이 프레임워크를 유용하게 만듭니다.

의사결정의 질이 양보다 중요합니다. 하나의 중대한 판단(배포해야 하는가?)은 10개의 사소한 선택(camelCase인가 snake_case인가?)보다 더 큰 비중을 차지합니다. 전략적으로 가중치를 두십시오.
마찰력 차이 (Friction Delta)는 역량 확장을 측정할 수 없습니다. 도구가 단순히 작업을 더 빠르게 만드는 것이 아니라, 새로운 무언가를 할 수 있게 해준다면 이 관점은 건너뛰십시오.
주의력 ROI (Attention ROI)는 기술 저하 (Deskilling)를 보상합니다. 하락하는 주의력 임계값은 굿하트의 법칙 (Goodhart's Law)에 따른 목표가 될 수 있습니다. 즉, 당신이 단순히 승인 도장만 찍도록 훈련시키는 도구들에 보상을 줄 위험이 있습니다.
삭제 비용 (Erasure cost)은 보이지 않습니다. 이 프레임워크는 다음과 같은 질문을 던지지 않습니다: "만약 내가 이것을 1년 동안 사용한다면, 이것 없이는 더 이상 무엇을 할 수 없게 되는가?"
오류 비대칭성 (Error asymmetry)은 보이지 않습니다. 두 도구가 동일한 점수를 받더라도, 실패했을 때 발생하는 결과는 재앙적으로 다를 수 있습니다.

네 번째 관점: 삭제 비용 (Erasure Cost)

질문하십시오: "만약 내가 이 도구를 6개월 동안 사용하다가 중단한다면, 어떤 기술을 잃게 될 것인가?"

점수를 매기십시오: 1점 (잃는 것 없음)부터 4점 (핵심 역량이 외주화됨)까지. 1~2점은 안전합니다. 3점은 의도적인 거래입니다. 4점은 도구가 아니라 의존성입니다.

적용 방법: 월요일 아침

지난 30일 동안 사용한 모든 AI 도구의 목록을 작성합니다.
각 도구에 대해 대체 비율 (Replacement Ratio)과 마찰력 차이 (Friction Delta)를 점수 매깁니다.
둘 다 통과하면 → 유지. 하나라도 실패하면 → 7일간 시험 사용. 둘 다 실패하면 → 취소.
살아남은 도구들에 대해 삭제 비용 (Erasure Cost)을 점수 매깁니다.
새로운 도구를 평가할 때: 구독하기 전에 점수를 매기십시오.

실제 사례

ChatGPT Plus ($20/month)

대체 비율 (Replacement Ratio): 3.5. 리서치 검색, 초안 작성, 서식 설정을 대체합니다. 검증 및 프롬프트 결정이라는 새로운 과업을 생성합니다. 통과.
마찰 변화량 (Friction Delta): 2~3회 사용 시 손익분기점에 도달합니다. 학습 곡선이 완만합니다. 통과.
주의력 ROI (Attention ROI): 감소 중입니다. 패턴을 익힐수록 속도가 빨라집니다. 통과.
삭제 비용 (Erasure Cost): 2. 근본적인 기술(논증 구조화)이 대체되는 것이 아니라 강화됩니다.
판결 (Verdict): 유지.

Cursor Pro ($20/month)

대체 비율 (Replacement Ratio): 4.0. 구문(Syntax) 검색, 상용구(Boilerplate), 함수 구조를 대체합니다. 코드 리뷰 결정을 생성합니다. 통과.
마찰 변화량 (Friction Delta): 1~2회 사용 시 손익분기점에 도달합니다. 탭 완성(Tab completion)이 즉각적입니다. 통과.
주의력 ROI (Attention ROI): 급격히 감소합니다. 통과.
삭제 비용 (Erasure Cost): 3. 헤비 유저들은 3개월 이상 사용 후 도구 없이 구문을 작성하는 데 어려움을 겪는다고 보고합니다. 의도적으로 감수할 만한 거래입니다.
판결 (Verdict): 일상적인 코딩을 위해 유지. 삭제 비용 모니터링 필요.

회의 요약 도구 (Meeting Summariser) ($20/month, 익명 처리됨)

대체 비율 (Replacement Ratio): 0.33. 1개의 결정을 대체하지만, 3개의 결정을 생성합니다. 실패.
마찰 변화량 (Friction Delta): 결코 손익분기점에 도달하지 못합니다. 여전히 회의에 참석해야 하며, 여전히 검증해야 합니다. 실패.
주의력 ROI (Attention ROI): 정체되어 있습니다. 모든 요약본을 동일한 수준으로 확인해야 합니다. 실패.
삭제 비용 (Erasure Cost): 2. 미미한 기술 퇴화.
판결 (Verdict): 취소.

이 프레임워크는 더 깊은 구조적 원칙과 연결됩니다: 도구의 가치는 그것이 제거하는 어려움에 있습니다. 만약 도구가 다른 종류의 새로운 어려움을 생성한다면, 그것은 도구가 아닙니다. 그것은 업무(Job)입니다.

다이어그램이 포함된 전체 프레임워크: https://telegra.ph/The-Decision-Subtraction-Framework-How-to-Evaluate-Any-AI-Tool-05-28