IRS Direct File AI, 세금 신고 시간 80% 단축

핵심 요약 (Key Takeaways)

IRS(미국 국세청)는 자사의 AI 기반 Pathfinder 시스템이 이번 시즌 1,500만 건의 신고서를 처리했으며, 자격이 되는 납세자의 평균 신고 시간을 20분 미만으로 단축했다고 밝혔습니다.
Intuit Assist는 수동적인 챗봇(Chatbot)에서 연중무휴 에이전트 시스템(Agentic system)으로 전환되었습니다. 이 시스템은 은행 및 원장(Ledger) 데이터를 자율적으로 스캔하여 회계연도가 끝나기 전에 공제 항목을 찾아내고 감사(Audit) 위험을 알립니다.
소프트웨어 제공업체들이 연방 세법(Federal tax code)으로 학습된 특화된 LLM(대규모 언어 모델)을 기반으로 정확성 보증을 제공하기 시작함에 따라 중대한 책임 전이가 일어나고 있으며, 법적 책임이 개인 신고자로부터 기업으로 이동하고 있습니다.

IRS는 세금 신고를 식료품점에 가는 것보다 더 빠르게 만들었습니다. 적어도 단순한 신고서의 경우에는 말입니다. 현재 미국 50개 주 전역에서 이용 가능한 확장된 Direct File 프로그램에 내장된 기관의 Pathfinder AI 엔진은 이번 시즌 1,500만 건의 신고서를 평균 20분 미만의 완료 시간으로 처리했습니다. Intuit 및 H&R Block과 같은 민간 부문 기업들에게 이는 단순한 헤드라인이 아닌 실존적인 신호입니다.

20분 만에 끝나는 세금 신고

Pathfinder는 기존의 인터뷰 방식 형식을 버렸습니다. 사용자를 이진(Binary) 예/아니오 질문으로 안내하는 대신, 이 시스템은 보안 API 연결을 통해 고용주의 급여 시스템과 금융 기관으로부터 데이터를 직접 가져와 사용자가 로그인하기도 전에 신고서를 미리 채워 넣습니다. 에스토니아와 스웨덴 같은 국가들이 수년 동안 운영해 온 "신고서 없는 신고(Return-Free Filing)" 모델이 이제 입법이 아닌 인프라를 통해 미국에 상륙하고 있습니다.

정치적 파장은 실재합니다. Intuit와 H&R Block은 세금의 복잡성을 기반으로 사업을 구축했습니다. 무료이면서 더 빠른 정부 운영 도구는 수백만 명의 미국인이 처음에 도움을 받기 위해 비용을 지불했던 핵심 이유를 제거해 버립니다. 이러한 긴장은 조용히 사라지지 않을 것입니다.

Intuit 및 H&R Block의 에이전트 중심 전환 (Agentic Pivot)

민간 부문의 대응은 빠르게 상위 시장(upmarket)으로 이동하는 것이었습니다. Intuit의 보고에 따르면, 자사의 Assist AI 에이전트는 현재 TurboTax와 QuickBooks 전반에 걸쳐 1억 명 이상의 활성 사용자를 보유하고 있습니다. 2026년 버전은 단순한 챗봇(chatbot)이 아닙니다. 이는 Credit Karma 계정과 QuickBooks 원장(ledger)을 연중 내내 모니터링하며, 단순히 신고 시즌뿐만 아니라 실시간으로 세금 손실 확정(tax-loss harvesting) 기회와 잠재적인 감사 위험을 포착하는 에이전트 중심 시스템(agentic system)입니다.

이러한 변화를 이끄는 기술적 전환은 시스템이 질문에 답하기 위해 관련 문서를 추출하는 기본적인 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 방식에서 벗어나, 자율적인 다단계 추론 (multi-step reasoning)으로 나아가는 것입니다. Intuit의 독점적인 세무 특화 LLM (Large Language Model)은 표준 공개 학습 데이터셋에는 나타나지 않는 과거 세무 법원 판결 및 IRS의 비공개 서신 결정(private letter rulings)을 바탕으로 미세 조정(fine-tuning)되었습니다. 이를 통해 원격 근무자를 위한 홈 오피스 공제나 분할 부동산 토큰(fractional real estate tokens)의 세무 처리와 같이 진정으로 복잡한 상황을 처리할 수 있는 능력을 갖추게 되었습니다. Intuit은 연례 신고 도구가 아닌 365일 금융 코파일럿(co-pilot)이 됨으로써, 기본적인 신고 경험이 무료 공공 서비스가 되어가는 상황에서도 프리미엄 가격 책정의 정당성을 확보하고 있습니다. 이 논리가 유효할지는 별개의 문제입니다.

머신러닝을 통한 세수 격차 해소

세무 분야의 AI는 단순한 소비자 관점의 이야기가 아니라, 집행(enforcement)의 이야기입니다. 납부해야 할 세금과 실제로 납부된 세금 사이의 차이인 IRS 세수 격차(tax gap)는 역사적으로 연간 약 6,000억 달러에 달했습니다. 해당 기관의 시즌 중반 데이터에 따르면, 이 수치는 10년 만에 처음으로 줄어들고 있습니다.

IRS는 현재 고액 자산가(high-net-worth)의 신고 패턴과 기업의 역외 구조(offshore structures)를 분석하여 비준수 클러스터(non-compliance clusters)를 식별하는 예측 모델(predictive models)을 운영하고 있습니다. 해당 기관은 이 모델들이 이전의 기존 방식인 차별 함수(Discriminant Function) 점수 산정 시스템보다 훨씬 높은 적중률로 세무 조사 대상 신고서를 식별한다고 주장하지만, 해당 수치에 대한 독립적인 검증은 아직 불가능한 상태입니다. 기반 인프라는 엔티티(entities), 계좌 및 관할 구역 간의 관계를 매핑하는 그래프 데이터베이스(graph database)입니다. 기관에 따르면, 민간 부문의 AI가 공격적인 조세 포지션(tax position)을 최적화하려고 시도할 때, IRS의 AI는 이미 정확히 그 전략을 모델링해 놓은 상태입니다.

이러한 AI 대 AI(AI-versus-AI)의 역학 관계는 그 사이에 끼인 납세자들에게 실질적인 압박을 가하고 있습니다. 재무부(Treasury Department)는 수동 세무 조사 적체(manual audit backlog)를 통해 오류를 추적하는 대신, 제출 전 오류 가능성을 알리는 사전 감사 통지(Pre-Audit Notices)를 발행하는 데 이 모델들을 사용할 것이라고 신호를 보냈습니다. 이것이 성공한다면 진정한 효율성 증대(efficiency gain)가 되겠지만, 만약 오류가 발생한다면 그 부담은 여전히 신고자에게 돌아갑니다.

마이크로 전문 스타트업과 긱 경제 (Gig Economy)

플랫폼 거대 기업들이 규모의 경제를 위해 싸우는 동안, 특정 분야에 집중하는 AI 스타트업 계층은 시장에서 가장 복잡한 영역을 공략하고 있습니다. 바로 긱 워크(gig work)를 하거나 크리에이터 비즈니스를 구축하는 수천만 명의 미국인들입니다. FlyFin 및 Keeper와 같은 플랫폼은 컴퓨터 비전(computer vision)과 자연 language processing (NLP)을 사용하여 대량의 영수증을 분류합니다. 이들은 캘린더 데이터, 위치 기록 및 카드 메타데이터(metadata)를 교차 참조하여 고객과의 저녁 식사와 개인적인 식사를 구분해 냅니다.

이곳의 핵심 철학은 수동 입력 제로(zero manual input)입니다. AI는 거래 내역을 분류하며, 신뢰도가 낮은 항목에 대해서만 사용자의 검토를 요청합니다. 프리랜서 디자이너나 여러 앱을 사용하는 운전기사에게 이는 보통 4월까지 관리되지 않은 채 방치되곤 하는 장부 정리(bookkeeping)의 부담을 제거해 줍니다. 또한 이러한 플랫폼들은 롱 컨텍스트 모델 윈도우(long-context model windows) — 단 한 번의 과정으로 수년간의 금융 기록을 흡수할 수 있는 능력 — 를 사용하여, 보통 전문 회계사가 찾아내야 하는 다년 간의 수입 및 지출 트렌드를 표면화합니다. 이러한 종류의 세밀한 분석은 이전에는 비용을 정당화할 수 없었던 1099 근로자(자영업자/프리랜서)들에게까지 확장되고 있습니다. 만약 이 분야를 위한 자동화 워크플로우(automation workflows)를 구축하고 있다면, B2B 에이전트 아키텍처 패턴(B2B agent architecture patterns)이 여기에 직접적으로 적용될 수 있습니다.

신뢰성 위기와 환각 방지 가드레일 (Hallucination Guardrails)

진보는 실재하지만, 신뢰 결핍 또한 실재합니다. 2026년 시즌 초기에, AI 플러그인이 신고자들이 '유령 공제(phantom deductions)'라고 부르는 것, 즉 존재하지 않거나 이전 연도에 만료된 세액 공제를 생성한다는 여러 보고가 나타났습니다. 법조계에서 회자되는 한 사례에서는, 한 세무 AI가 사용자들에게 2024년에 만료된 디지털 장비 감가상각 공제를 신청하도록 조언했다고 알려졌습니다. 세법은 끊임없이 변하며, 정적인 모델(static models)은 기반이 되는 LLM(대규모 언어 모델)이 얼마나 뛰어나든 상관없이 지식 컷오프(knowledge cutoff) 문제를 안고 있습니다.

가장 앞서가는 대응 방식은 높은 이해관계가 걸린 신고(high-stakes filings)를 위한 인간 참여형 (Human-in-the-Loop, HITL) 요구 사항을 도입하는 것입니다. H&R Block의 AI Tax Assist는 이제 사용자의 조정 총소득 (adjusted gross income) 중 정의된 임계값을 초과하는 모든 공제 항목을 제출 전 전문 인력의 검토를 거치도록 경로를 지정합니다. 이를 넘어 업계는 하이브리드 아키텍처 (hybrid architecture)로 수렴하고 있습니다. 즉, 생성형 LLM (Large Language Model)이 전략을 제안하면, 규칙 기반의 심볼릭 AI (symbolic AI)가 이를 하드코딩된 법령 데이터베이스와 대조하여 검증하는 방식입니다. LLM은 추론을 제공하고, 규칙 엔진 (rules engine)은 가드레일 (guardrails)을 집행합니다. 우아한 방식은 아니지만 효과적입니다. 또한 이는 오류가 실제 재정적 결과로 이어지는 영역에서 환각 (hallucination) 위험에 대한 정직한 해답이기도 합니다. 이는 모든 기업용 AI 워크플로우에서 중요한 숨겨진 비용 고려 사항 (hidden cost considerations)과도 맥을 같이 합니다.

책임의 전환과 셀프 신고의 종말

현재 일어나고 있는 가장 중대한 변화는 기술적인 것이 아니라 법적인 것입니다. 역사적으로 세무 소프트웨어는 계산기로 취급되었습니다. 사용자가 결정을 내리고, 사용자가 책임을 졌습니다. 하지만 이제 그 상황이 변하고 있습니다. AI 기반 신고 결정의 복잡성이 증가함에 따라 이러한 사회적 계약의 재작성이 강요되고 있으며, 보험 업계가 가장 먼저 움직이고 있습니다.

이번 주 두 곳의 인슈어테크 (insurtech) 기업이 AI 세무 플랫폼과의 파트너십을 발표하며, 전문적인 보장을 바탕으로 한 정확성 보증을 제공한다고 밝혔습니다. 이는 사실상 알고리즘 보험 (algorithm insurance)이라는 새로운 카테고리를 창출하는 것입니다. 더 큰 구조적 질문은 AI 에이전트 (AI agent)가 거래를 자율적으로 분류하여 과태료를 발생시켰을 때, 누가 책임을 지느냐 하는 점입니다. 현재 나타나고 있는 답변은 신고자가 아닌 소프트웨어 제공업체인 것으로 보입니다. 만약 책임 프레임워크 (liability framework)가 그 방향으로 이동한다면, 인간 전문가가 아닌 IRS(미 국세청) 앞에서 업무를 수행하도록 공식적으로 인정받은 검증된 AI 모델인 "인증 세무 대리인 (Certified Tax Agents)"가 가까운 시일 내에 실현 가능한 발전 모델이 될 수 있습니다. 그렇게 된다면, 일정 소득 수준 이상의 신고자들에게 "직접 신고 (self-filing)"라는 개념은 거의 사라질 수도 있습니다. 그들은 직접 신고하는 대신, 자체적인 보험을 보유한 라이선스 기반 AI에게 업무를 위임하게 될 것입니다.

개인정보 보호의 트레이드오프 (Privacy Trade-Off)

효율성 향상에는 과소평가하기 쉬운 대가가 따릅니다. 모든 공제 항목을 찾아내기 위해, 이러한 시스템은 구매 이력, 의료비 청구서, 자선 기부 기록 및 위치 데이터에 대한 접근 권한이 필요합니다. 이는 개인의 재무 생활에 대한 포괄적인 그림이며, 일단 데이터가 모델에 입력되면 그 데이터가 다음에 어디로 향하는지에 대한 의문은 정당한 문제입니다.

Electronic Frontier Foundation (EFF)를 포함한 프라이버시 단체들은 데이터 지속성(data persistence)에 대한 우려를 제기해 왔습니다. 구체적으로 세무 목적으로 수집된 금융 데이터가 신용 점수 산정(credit scoring)이나 광고 타겟팅(ad targeting)을 위해 재사용될 수 있는지에 대한 우려입니다. Intuit 등은 엄격한 데이터 사일로(data silos)를 운영하고 있다고 주장하지만, 대규모 모델(large models)을 학습시키는 기술적 현실로 인해 깨끗한 격리를 구현하는 것은 진정으로 어려운 일입니다. 이에 대한 대응책으로 온디바이스 세무 AI(on-device tax AI)가 주목받고 있습니다. 이는 휴대폰이나 노트북에서 로컬로 실행될 수 있을 만큼 컴팩트한 모델로, 민감한 데이터가 하드웨어를 절대 벗어나지 않도록 합니다. Apple은 회계 법인과 협력하여 자사의 M-시리즈 칩을 위한 프라이빗 컴퓨팅(private computation) 접근 방식을 탐색 중인 것으로 보고되었으나, 아직 공식적인 발표는 없는 상태입니다. 세금 신고의 고통 감소와 금융 투명성 증대 사이의 절충안(trade-off)은 현재 대부분의 사용자가 수용하고 있는 부분입니다. 데이터 접근 요구 사항이 증가함에 따라 이러한 계산이 계속 유효할지는 지켜볼 가치가 있습니다.

주목해야 할 사항

Pathfinder 확장: IRS가 2026년 말까지 Direct File를 더 복잡한 신고(자영업 소득, 암호화폐 수익 등)까지 확장할 것인지에 대한 신호를 주는지 주시해야 합니다. 이는 주요 세무 준비 로비 단체들의 핵심 수익을 직접적으로 위협할 것입니다.
입법적 AI 감사(Legislative AI audits): AI 기반의 IRS 감사 결정에 대해 설명 가능성(explainability)을 요구하는 초당적 법안이 워싱턴에서 초기 논의 단계에 있는 것으로 알려졌습니다. 이 법안이 통과되면 해당 기관은 납세자가 플래그(flagged)된 원인이 된 알고리즘 경로를 공개해야 합니다.
실시간 과세 파일럿(Real-time taxation pilots): 캘리포니아와 매사추세츠는 AI가 소득 수령 시점에 납세 의무를 계산하는 거래 기반 과세 모델을 테스트하고 있습니다. 이것이 성공한다면, 연례 세금 신고 시즌은 구식 프로세스처럼 보이게 될 것입니다.
LLM 정확도 벤치마크(LLM accuracy benchmarks): 올해 말, 인간의 개입 없이 복잡한 세법 시나리오를 탐색하는 능력을 기준으로 주요 모델들의 순위를 매기는 제3자 표준 세무 벤치마크(Standardised Tax Benchmark)가 발표될 예정입니다. 그 결과는 소비자 신뢰와 기업의 조달 결정 모두에 중요한 영향을 미칠 것입니다.

AI 에이전트 (AI agents) 및 자동화 도구 (automation tools)에 대한 더 자세한 내용은 당사의 AI 에이전트 섹션을 방문해 주세요.

_원문 출처: https://autonainews.com/irs-direct-file-ai-cuts-filing-time-by-80/