우리의 최적화 문제(세금 등)를 AI에게 암묵적으로 신뢰해도 될까?

나는 5개의 프런티어 (Frontier) AI 모델에게 동일한 ISO (Incentive Stock Options, 인센티브 스톡 옵션) 세금 문제를 주었습니다. 모든 답변이 2배에서 20배까지 차이가 났습니다. 그리고 문제는, 당신에게 경고가 주어지지 않는다는 점입니다. 나는 사람들의 ISO 문제를 돕기 위해 주말 동안 이 계산기의 첫 번째 버전을 만들었습니다. 몇 달 후, 지분 보상 (Equity compensation) 결정을 위한 더 포괄적인 최적화 도구를 만들었을 때, 내가 이를 보여준 사람들에게서 한 가지 질문이 계속해서 나왔습니다: "굳이 왜 해야 하죠, 그냥 Claude나 ChatGPT에게 해달라고 하면 안 되나요?" 그래서 나는 테스트를 실행했습니다. 나는 5개의 프런티어 (Frontier) AI 모델에게 동일한 세금 문제, 즉 세후 가치를 극대화하기 위해 4년에 걸쳐 20,000주의 ISO (Incentive Stock Options)를 어떻게 행사할 것인가에 대한 문제를 주었습니다. 동일한 프롬프트 (Prompt)를 사용하여 각각 3회씩 독립적으로 실행했습니다. 변동성 공식은 프롬프트에 그대로 제공되었으므로 오해의 소지가 없었습니다. 15개의 응답 모두가 자신이 추천한 일정의 순 최종 가치 (NFV, Net Final Value)를 과장했습니다. 가장 적게 과장한 것이 2배였고, 가장 많이 과장한 것은 19.7배였습니다. 추론 (Reasoning) 기능이 활성화되지 않은 상태에서 호출당 0.30달러로 테스트 중 가장 저렴했던 GPT-5.5의 가장 좋은 실행 결과가 결정론적 최적값 (Deterministic optimum)에 가장 가까웠습니다. 가장 비싼 변체 (GPT-5.5 Pro, 추론 활성화, 호출당 3달러)는 사고 단계 (Thinking step)에서 우리의 16K 출력 토큰 (Output token) 예산을 모두 소모하고 빈 완성 텍스트를 반환했습니다. 더 높은 예산이었다면 출력을 생성했을 수도 있습니다; 나는 모델 간의 비용을 상대적으로 동일하게 유지하기 위해 발표된 결과에는 비추론 (Non-reasoning) 변체를 사용했습니다. 다음과 같은 일이 일어났습니다.

이것이 당신에게 의미하는 바
내가 LLM (Large Language Model, 거대언어모델)에게 ISO 행사를 모델링하도록 요청했을 때, 달러 수치는 2배에서 20배까지 차이가 났습니다. 이는 Claude, Gemini, GPT-5.5, Grok, 그리고 Mistral 모두에서 사실이었습니다. 일부 모델에서 추론 (Reasoning) 기능이 활성화되었을 때나, 내가 입력 공식을 명시적으로 제공했을 때도 마찬가지였습니다. 질적 분석 (Qualitative analysis)은 종종 유용합니다. 테스트에 참여한 모든 모델은 AMT (Alternative Minimum Tax, 대체 최소세)가 구속 조건 (Binding constraint)이라는 점, 캘리포니아 주 AMT가 별도로 적용된다는 점, 적격 처분 (Qualifying disposition)이 보유 기간에 달려 있다는 점, 그리고 평균의 선택 (산술 평균 vs 기하 평균)이 전략적 답변을 뒤바꾼다는 점을 정확하게 식별했습니다.

몇몇 답변에서는 집중 위험 (concentration risk)과 회수되지 않은 AMT 세액 공제 (AMT credit) 문제를 지적했습니다. 이러한 고려 사항들은 아직 이해하지 못한 문제에 대해 방향을 잡는 데 유용합니다. 하지만 구체적인 수치 추정치는 신뢰할 수 없습니다. 답변 내용을 스프레드시트에 그대로 복사하는 독자는 2배에서 20배에 달하는 오류를 가져오게 됩니다. 그리고 AI는 자신이 매우 틀릴 가능성이 높은 무모한 추측을 했다는 사실을 경고해주지 않습니다. 제가 받은 15개의 답변 중 그 어느 것도 자신의 최종 NFV (Net Future Value)를 실행에 옮기기 전 반드시 검증해야 할 '즉흥적인 추정치'라고 라벨링하지 않았습니다. 몇몇 답변은 세법의 불확실성, 향후 주가 변동성, 저의 개인적인 위험 허용도, 심지어 집중 위험에 대한 주의 사항을 추가하기도 했습니다. 하지만 그 어느 것도 "제 계산이 정확한지, 혹은 이 숫자의 자릿수(order of magnitude)가 맞는지 확신할 수 없습니다"라고 말하지 않았습니다. 만약 숫자의 규모(magnitude)조차 중요한 결정을 내리기 위해 챗봇을 사용하고 있다면, 스스로에게 그러한 경고를 해야 한다고 가정해야 합니다. 여기서 제가 테스트한 시나리오는 의도적으로 단순합니다. 하나의 보조금, 하나의 주식, 하나의 신고 지위, 다른 회사의 지분이나 이 회사의 다른 지분 없음, 401(k) 또는 Roth 최적화 없음, 예상 소득 변화 없음, 자선 계획 없음, 타 주로의 이주 없음. 당신의 실제 상황은 거의 확실히 더 많은 변수가 포함되어 있을 것입니다. 최첨단 추론 모델 (frontier reasoning models)조차 쉬운 버전의 계산을 안정적으로 수행하지 못한다면, 더 어려운 버전에서 두각을 나타낼 가능성은 낮습니다. 이러한 종류의 문제에 대한 재현 가능한 대안은 결정론적 (deterministically)으로 계산을 수행하는 소프트웨어입니다. 여기서 참조로 사용된 기본 최적화 도구인 optionsahoy.com/tools/amt-iso 는 4년 치 주식 배분에 대해 그리드 탐색 (grid search)을 수행하여 전역 최적해 (global optimum)를 찾아내며, 모델들이 재현하려고 시도하는 것과 동일한 폐쇄형 (closed-form) 세금 계산 방식을 통해 각 일정을 점수화합니다. 저의 핵심 논점은 AMT 최적화가 아닙니다. 사람들이 매일 LLM에게 해결해 달라고 요청하는 유사한 금융 최적화 과제는 수천, 어쩌면 수백만 개에 달합니다. 그리고 LLM은 이를 수행합니다. 다만 우리의 기본 사례로 판단할 때, '틀리게' 수행할 뿐입니다. 이제, 데이터를 살펴보겠습니다.

ISO(Incentive Stock Options, 인센티브 스톡옵션)를 행사할 때 AMT(Alternative Minimum Tax, 대체 최소세)가 발생하는 시나리오입니다. 행사가격 차액(공정 시장 가치에서 행사가격을 뺀 값에 주식 수를 곱한 값)은 별도의 세금 계산 과정에 추가됩니다. AMT는 일반적인 세금이라기보다 선납금에 가깝습니다. 정기 세금(Regular tax)이 잠정 최소세(Tentative minimum tax)를 초과하는 향후 연도에 연방 세액 공제(Federal credit) 형태로 상당 부분이 환급되기 때문입니다. 언제 행사하느냐가 중요합니다. 매년 소량씩 나누어 행사하는 트랜치(Tranche)는 장기 자본 이득(Long-term capital gains) 요건을 충족합니다. 반면, 같은 해에 대량으로 행사하고 즉시 매도하는 트랜치는 일반 소득(Ordinary income)으로 과세되는 부적격 처분(Disqualifying dispositions)이 됩니다. 일정(Schedule)이 결과를 바꿉니다.

제가 테스트한 시나리오는 다음과 같습니다:

20,000주의 ISO, 행사가격 $2, 현재 공정 시장 가치 $200
부부 공동 신고(Married filing jointly), 일반 소득 $300,000, 캘리포니아 거주자
이전 AMT 세액 공제 이월액 없음
유휴 현금에 대한 수익률 5.5%; 세금 조기 납부에 따른 기회비용 발생
4년 기간, 4년 차 말까지 모든 주식 매도
산술 평균 연수익률 17%, 연간 변동성 72% (최근 상장한 많은 기술 기업들을 모델링)
2022년 1월에 부여된 ISO (조기 행사의 경우 기간 내에 적격 처분 기간 충족)

가격 예측을 위해 프롬프트는 표준 Itô 공식(Itô formula)을 직접 제공했습니다: $\mu_{\text{geometric}} = \mu_{\text{arithmetic}} - \sigma^2/2$. $\sigma = 0.72, \mu = 0.17$일 때, 즉 $\mu_{\text{geometric}} = -0.0892$/년입니다. 4년 차 중앙값 가격은 약 $137로 복리 계산됩니다. 이 공식은 제가 모델들에게 준 프롬프트에 포함되어 있었습니다. 해석상의 간극은 없었습니다.

최적화 자체는 매우 안정적(Well-behaved)입니다. 음(-)의 기하학적 드리프트(Geometric drift) 하에서는 행사를 미루는 것이 유리합니다. 가치 함수(Value function)는 단봉형(Unimodal)이며, 전역 최적해(Global optimum)는 4년 차에 장기 자본 이득 요건을 충족할 수 있도록 1~3년 차에는 소량의 트랜치를 두고 4년 차에 대량으로 처리하는 일정 근처에 위치합니다. 두 개의 지역 최댓값(Local maxima), 불연속성, 또는 좁은 실행 가능 영역(Feasible region)도 존재하지 않습니다. 이 최적해를 찾는 것은 교과서적인 수준이며, 흔히 스프레드시트를 사용하여 수행됩니다.

결정론적 정답 (Brute-force grid search): 일정: 연간 306 / 338 / 740 / 18,616 주 순 최종 가치 (Net final value, NFV) 4년 차 말 기준: $726,409

참고를 위한 두 가지 단순한 베이스라인 (Naive baselines):
1년 차에 20,000주 전액 일시불 (Lump-sum): $123,205
매년 균등 분할 (연간 5,000주): $387,473
최악과 최선의 결과 사이에 6배의 차이가 있으며, 이는 각 모델이 개선할 수 있는 여지(room)를 의미합니다.

방법론 (The method)
각 모델에 대해 세 번의 독립적인 API 호출을 수행했습니다. 매번 새로운 컨텍스트 (Fresh context)를 사용하였고, 온도는 1.0으로 설정했습니다. 매번 동일한 프롬프트 (Prompt)를 토씨 하나 틀리지 않고 그대로 사용했습니다. 각 응답에서 저는 두 가지 숫자를 추출했습니다: 모델이 권장한 일정 (연간 주식 수)과 해당 일정에 대해 모델이 주장한 순 최종 가치 (NFV)입니다. 그런 다음 모델이 권장한 일정을 결정론적 계산기 (Deterministic calculator)에 입력하여 실제 NFV (이를 "진정한" NFV라고 부릅니다)를 계산했습니다. 주장된 값과 실제 값 사이의 차이는 모델이 자신의 권장 사항에 대해 나타낸 산술적 편차 (Arithmetic deviation)입니다.

테스트된 모델:

Anthropic Claude Opus 4.7 (Reasoning 활성화), Claude Code 서브 에이전트를 통해
OpenAI GPT-5.5 (Reasoning 미사용), OpenRouter를 통해
Google Gemini 2.5 Pro (Reasoning 활성화), OpenRouter를 통해
xAI Grok 4.20 multi-agent (Reasoning 활성화), OpenRouter를 통해
Mistral Large 2512, OpenRouter를 통해
총 API 지출액: 15회 호출에 걸쳐 $8.68. 전체 제공자 ID 및 파라미터는 마지막의 방법론 (Methodology) 섹션에 기재되어 있습니다.

사전에 언급할 만한 두 가지 방법론적 참고 사항이 있습니다. Reasoning 기능이 활성화된 GPT 변형 모델 (gpt-5.5-pro)을 먼저 테스트했으나, 여러 차례의 시도에도 불구하고 빈 응답 (Empty completion)을 반환했습니다. Reasoning 추적 (Reasoning trace) 과정에서 호출당 $2.96의 비용을 들여 출력 토큰 예산 (Output token budget)을 모두 소모해 버렸고, 정작 답변은 렌더링되지 않았습니다. 따라서 발표된 결과에는 Reasoning 기능이 없는 변형 모델을 사용했습니다. Claude의 경우 OpenRouter가 아닌 Claude Code의 서브 에이전트 경로를 통해 테스트했습니다. 동일한 토큰 예산 설정 하에서 OpenRouter를 통한 Claude 경로 역시 동일한 빈 응답 실패가 발생했기 때문입니다.

결과 (Results)
세 가지 관찰 사항이 있습니다. 15번의 실행 모두에서 각 모델은 자신의 NFV를 과장했습니다. 모델이 권장한 일정이 실제로 가져다주는 가치보다 낮은 값을 주장한 모델은 단 하나도 없었습니다.

이러한 경향은 모델 전반과 실행(run) 전반에 걸쳐 일관되게 나타납니다. 일정의 품질은 추론 능력 (reasoning capability)과는 무관합니다. Claude (추론 모드)는 일관되게 균등 분할 (even-split)을 선택했으며, 이는 최적 가치의 약 47%를 포기하는 결과입니다. 추론 기능이 비활성화된 GPT-5.5는 첫 번째 실행에서 결정론적 최적해 (deterministic optimum)에 가장 가까운 일정을 생성했는데, 이는 최적화 도구 (optimizer)가 생성하는 것과 동일한 '작고 완만한 형태에 Y4 시점의 덩어리(small-smooth-plus-Y4-lump)' 형태임을 쉽게 알아볼 수 있었습니다. 즉, 추론 기능이 활성화된 모델이 더 나은 정답에 도달한 것은 아니었습니다. 두 모델은 실행 간 높은 변동성 (run-to-run variance)을 보였습니다. Gemini는 실행 1에서는 균등 분할을 추천했으나, 실행 2와 3에서는 Y1 시점의 덩어리 (lump-Y1) 방식을 추천했습니다. Mistral은 한 번은 Y4 시점의 덩어리 방식을 추천했고, 이후에는 서로 다른 두 가지 완만한 형태를 추천했습니다. 동일한 프롬프트, 동일한 온도 (temperature) 설정, 세 번의 독립적인 호출이었음에도 세 가지 서로 다른 전략적 권장 사항이 나온 것입니다. Claude, Grok, GPT-5.5는 모델 내부적으로는 더 일관성을 유지했습니다.

모델별 상세 분석:

Claude Opus 4.7: 세 번의 실행 모두에서 균등 분할 일정을 선택했습니다. 추론 과정 (reasoning trace)에서 변동성 저하 (vol drag) 계산은 정확하게 수행하였고 ($\mu_{\text{geometric}} = -0.0892$, $Y4 \approx $140$), AMT 교차 지점 (AMT crossover)도 정확하게 식별했습니다 (AMT가 실질적으로 영향을 미치기 전인 연간 약 1,000~~1,400주). 그러나 그 후에도 모델은 자신이 명시적으로 계산한 교차 지점보다 4~~5배 높은 수치인 연간 5,000주를 권장했습니다. 명시된 NFV는 실제 결과인 $372K~$387K에 비해 $1.56M에서 $1.79M 사이로 나타났습니다. 실행 1에 대한 주의 사항으로, Claude는 Y1 시점의 덩어리 방식이 아마도 "$2.0–2.1M NFV"를 생성할 것이라고 언급했습니다. 하지만 이 시나리오에서 실제 Y1 덩어리 방식의 결과는 $123,205였습니다.

Gemini 2.5 Pro: 테스트 중 단일 실행 기준 가장 높은 '명시된 값/실제 값' 비율을 기록했습니다. 실행 3에서 실제 결과가 $123K인 Y1 덩어리 일정에 대해 $2.43M이라고 주장하며 19.70배의 차이를 보였습니다. 실행 1에서는 프롬프트에 $T = 4$라고 명시했음에도 불구하고, 복리 계산 단계에서 3.5년 지수를 사용하여 Y4 가격을 잘못 계산했습니다. 세 번의 실행에서 세 가지 서로 다른 전략적 결론을 내렸습니다.

Grok 4.20 multi-agent: 일관되게 덩어리 전략을 선택했으며, 실행 1에서는 Y4, 실행 2와 3에서는 Y3를 선택했습니다. 추론은 직설적이었습니다: 음의 드리프트 (negative drift) 상황에서는 행사를 미루라는 것이었습니다.

이는 질적으로 최적의 형태에 가깝지만, 장기 자본 이득 (LTCG, Long Term Capital Gain) 처리를 위해 트랜치 (tranche)의 자격을 부여하는 미세한 Y1–Y3 평활화 (smoothing)를 놓치고 있습니다. 명시된/실제 비율 (stated/true ratios)은 절대적인 관점에서 5개 모델 중 가장 낮았습니다 (2.04배 ~ 2.77배). Mistral Large 2512는 테스트 중 단일 실행에서 가장 큰 명시적 NFV (Net Future Value)를 생성했습니다: 실행 1에서 실제 결과인 $672,144에 비해 $10,977,600를 기록했습니다. 실행 3은 다른 일정에서 $10,010,000를 명시했으나 실제 결과는 $563,934였습니다. 이 모델의 추론은 Bargain element 계산($3.96M 총액)과 매각 시의 LTCG 세금을 올바르게 적용하지만, 거기서 최종 NFV로 넘어가는 단계가 모델이 권장한 일정과 일치하지 않습니다. GPT-5.5 (추론 기능 없음)는 첫 번째 호출에서 15번의 모든 실행 중 가장 좋은 일정을 생성했습니다. 해당 일정은 결정론적 최적값 ($726,409)의 5% 이내인 $694,549의 실제 NFV를 산출합니다. 명시된 NFV는 $1,430,600였습니다 (실제 값의 2.06배). 실행 2와 3은 다른 형태 (lump-Y3, Y3/Y4 분할)를 선택하여 실제 NFV는 더 낮았지만, 유사한 과장 비율 (2.61배 ~ 2.79배)을 보였습니다. 추론 기능이 활성화되지 않은 테스트 중 가장 저렴한 모델이 가장 사용 가능한 단일 권장 사항을 생성했습니다.

두 가지 독립적인 실패 모드
15번의 실행 전반에 걸쳐 두 가지 뚜렷한 행동 범주가 나타납니다. 첫 번째는 일정 선택 (schedule selection)입니다. 일부 모델은 최적에 가까운 형태를 찾아냅니다 (GPT-5.5 실행 1, Grok lump-Y4). 다른 모델들은 더 나쁜 형태를 선택하고 (Claude even-split, Gemini lump-Y1) 실행 전반에 걸쳐 그 상태를 유지합니다. 질적인 추론 ("음의 드리프트는 행사를 미루라는 의미이다")은 일관된 답변을 내놓은 모든 모델에 의해 올바르게 언어화되었지만, 오직 일부 모델만이 그 통찰과 일치하는 권장 사항으로 이를 변환합니다. 이 단계는 산술적인 문제가 아닙니다. 모델이 자신이 명시한 결론과 일치하는 권장 사항을 확정하는지의 문제입니다. 두 번째는 권장된 일정에 대한 산술 (arithmetic on the recommended schedule)입니다. 모든 모델과 모든 실행에 걸쳐, 명시된 NFV는 실제 NFV를 최소 2배 이상 초과합니다. 15번의 실행 중앙값은 약 4배이며, 롱 테일 (long tail)은 19.7배에 달합니다.

이러한 편차는 모델이 AMT (Alternative Minimum Tax, 대체 최소세), vol drag (변동성 끌림), 또는 qualifying dispositions (적격 처분)를 이해하는지 여부에 관한 것이 아닙니다. 검토 결과, 대부분의 모델은 이러한 개념들을 정확하게 설명하고 있습니다. 편차는 모델이 자신의 계획을 달러 수치로 변환하는 마지막 단계에서 발생합니다. 그 단계에는 다년도 복리 계산 (multi-year compounding), 연방 AMT (federal AMT), 주 AMT (state AMT), LTCG (Long-Term Capital Gains, 장기 자본 이득) 기준 조정 (basis adjustment), 세액 공제 회복 (credit recovery), 그리고 화폐의 시간 가치 조정 (time-value adjustment)이 필요합니다. 모델이 과정 중에 각 구성 요소를 올바르게 식별했음에도 불구하고, 결과값이 신뢰할 수 있는 정확한 숫자로 도출되지 않습니다. LLM (Large Language Models)은 경이롭습니다. 우리의 단순한 세금 과제(tax challenge)를 추정할 때 저지른 실수들 또한 경이로울 정도입니다. 이 두 가지 실패는 독립적입니다. GPT-5.5는 최적의 일정을 선택하지만 수치를 2~~3배 과다 산정합니다. Mistral은 합리적인 일정(lump-Y4)을 선택하지만 16배나 과다 산정합니다. Claude는 최악의 일정을 선택하며 4~~5배 과다 산정합니다. 여기에는 더 깊은 함의가 있습니다. 어떤 문제들은 열거 (enumeration)를 통해 해결하는 것이 가장 좋습니다.

우리의 최적화 문제(세금 등)를 AI에게 암묵적으로 신뢰해도 될까?

요약

핵심 포인트

댓글