AI 생성 접근성 업데이트 — 최첨단 모델들은 여전히 실패하지만, '스킬(skills)'이 판도를 바꾼다 - Insights | Molayo

몇 달 전, 저는 LLM이 UI 코드를 얼마나 접근성 있게 생성하는지를 측정하는 벤치마크인 A11y LLM Eval 프로젝트의 초기 결과를 공유했습니다. 이전 포스트에서는 LLM이 기본적으로 접근성이 낮은 코드를 생성하며, 명시적인 접근성 지침(accessibility instructions)이 이를 극적으로 바꿀 수 있고, 수동 테스트가 여전히 필수적이라는 점을 보여주었습니다. 새로운 모델, 재설계된 테스트 범위, 그리고 완전히 새로운 메커니즘인 '스킬(skills)'을 포함한 최신 보고서가 발표되었습니다. 두 가지 사항이 눈에 띕니다. 최신 최첨단 모델(GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro Preview, Claude Haiku 4.5 등)은 여전히 기본 설정 상태에서 접근성 검사를 통과하지 못합니다. 잘 작성된 스킬은 우리가 측정한 것 중 가장 높은 통과율을 기록할 수 있습니다. 스킬을 사용하면 성능이 낮은 베이스라인 모델이 선두 모델들을 능가할 수도 있지만, 실행 시 더 많은 토큰(tokens) 비용이 발생할 수 있습니다. 통과율은 본 테스트 프레임워크의 자동화된 검사(axe-core WCAG 규칙 세트와 테스트 케이스별 수동 작성된 어설션(assertions)의 조합)만을 반영한다는 점에 유의하십시오. 자동화된 테스트는 접근성 문제의 일부만 감지할 수 있습니다. 여기서 100%라는 것은 샘플이 실행된 모든 검사를 통과했다는 의미이지, 해당 페이지가 WCAG를 준수하거나 완전히 접근 가능하다는 의미는 아닙니다.

요약(TL;DR):
기본(대조군) 접근성은 여전히 나쁩니다: 평균 통과율은 12%이며, GPT-5.4 Mini가 25%로 앞서고 있습니다. 최신 모델이라고 해서 더 접근성이 높은 것은 아닙니다. 맞춤형 지침(Custom instructions)은 여전히 효과가 있습니다. 기본 지침 세트는 통과율을 +48.5%p 높여 60%에 도달하게 합니다. 스킬은 여기서 더 나아갑니다. '접근 가능한 UI 구축(Building Accessible UI)' 스킬을 '생성(Generate) 후 검토(Review)'라는 2단계 워크플로우로 실행하면 86%의 통과율(+74.6%p)을 달성합니다. 최고 성능 모델은 Gemini 3.1 Pro Preview로, 대조군에서는 단 8%의 점수를 기록했던 모델입니다. 스킬의 검토 단계는 대조군 입력 토큰의 약 5.5배 비용이 발생합니다. 품질은 공짜가 아닙니다.

이번 보고서의 새로운 점:
결과가 이제 완전히 에이전트 방식(agentic)으로 도출됩니다. 이전 보고서는 단일 프롬프트와 응답을 통해 LLM API를 직접 호출했습니다.

이 보고서는 도구 사용(tool use), 다회차 추론(multi-turn reasoning), 그리고 Copilot 에이전트가 실제 운영 환경에서 사용하는 것과 동일한 지침 및 스킬 로딩 메커니즘을 갖춘 실제 에이전트로서 GitHub Copilot SDK를 통해 각 평가를 수행합니다. 아래 수치들은 모델이 단일 호출(one-shot API call) 방식이 아닌, 에이전트 루프(agent loop) 내에서 작동할 때의 동작을 반영합니다. 또한, 새로운 "스킬(skills)" 변형 방식이 가능한 이유는 우리가 에이전트 런타임(agent runtime)을 통해 실행하고 있기 때문입니다. 32개의 프롬프트 케이스(1,280개의 대조군 샘플)에 걸쳐 8개의 모델을 평가했습니다. 모델 라인업은 대부분 최신 모델입니다: GPT‑5.4, GPT‑5.4 Mini, GPT‑5.5, Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5, Gemini 3.1 Pro Preview, 그리고 Gemini 3 Flash Preview입니다. 추적된 지침 세트(instruction sets)는 이제 Basic과 Minimal로 구성됩니다. 이전 실행에서 사용된 상세 전문가 수준의 지침 세트는 이번 보고서에 포함되지 않았습니다. 재사용 가능한 작업별 가이드 패키지인 스킬(Skills)이 새로운 메커니즘으로 추가되었습니다. 처음으로 평가된 스킬은 '접근 가능한 UI 구축(Building Accessible UI)'입니다. 이에 대한 자세한 내용은 아래에서 다룹니다. 새로운 변형 토큰(variant token)과 통과율 스냅샷을 통해 대조군(control), 지침(instructions), 스킬 턴(skill turns) 전반에 걸쳐 토큰 비용 대비 품질을 비교할 수 있습니다.

대조군: 최첨단 모델들, 동일한 접근성 문제
이전 게시물의 핵심 결과는 LLM이 기본적으로 접근 불가능한 코드를 생성한다는 것이었습니다. 최신 모델들을 사용하더라도 이 점은 변하지 않았습니다. 몇 가지 관찰 결과는 다음과 같습니다: GPT가 여전히 대조군에서 앞서고 있지만, 최고 점수는 이전에 GPT‑5.2가 기록했던 41%를 훨씬 밑돕니다. 프롬프트 세트가 변경되었고 검증(assertions) 조건이 더 엄격해졌기 때문에 수치를 직접 비교할 수는 없으나, 결론은 동일합니다: 그 누구도 기본적으로 접근 가능한 코드를 배포하지 않습니다. Claude Haiku 4.5는 3%에 머물렀으며, 샘플당 평균적으로 거의 6개의 WCAG 실패를 기록했습니다. Sonnet 4.6과 Gemini 3 Flash Preview도 그 뒤를 바짝 쫓고 있습니다. 가장 어려운 테스트 케이스인 '쇼핑 홈 페이지(Shopping Home Page, React, 다크 테마)'는 모든 모델에서 평균 15.55개의 WCAG 실패를 기록하며 0%의 통과율을 보였습니다. 컴포넌트 밀도(Component density)는 이 문제를 빠르게 악화시킵니다. 이전 게시물에서 제시했던 학습 데이터 가설(training-data hypothesis)은 여전히 유효해 보입니다.

개방형 웹(open web)은 압도적으로 접근성이 떨어지며, 따라서 모델이 일반적인 코드 작성 능력이 얼마나 뛰어난지와 관계없이 해당 데이터를 통해 학습되면 그 패턴을 그대로 물려받게 됩니다.

지침 세트(Instruction sets): 여전히 가장 저렴한 승리
사용자 지정 지침(Custom instructions)은 팀이 접근성을 개선하기 위해 배포할 수 있는 가장 빠른 방법입니다. 기본 지침 파일(Basic instruction file)은 평균 입력 토큰(input tokens)을 약 50%만 증가시키면서도 제어 통과율(control pass rate)을 거의 5배 높여줍니다. 단 한 줄의 최소 지침("모든 출력은 반드시 접근 가능해야 합니다.")만으로도 통과율을 3배 이상 높일 수 있습니다. 다른 것은 하지 않더라도, 지침 파일만큼은 반드시 배포하십시오. 기본 지침은 팀의 스택(stack)과 디자인 시스템(design system)에 맞춰 맞춤화할 수 있는 좋은 시작점입니다.

스킬(Skills): 새로운 메커니즘
이 보고서에서 가장 큰 변화는 스킬(skills)의 도입입니다. 지침 세트가 모든 작업에 대해 에이전트의 컨텍스트(context)에 상시 로드되는 가이드라인이라면, 스킬은 가이드라인, 예시, 지원 파일, 스크립트 및 도구 사용(tool-use) 워크플로를 하나로 묶은 재사용 가능한 작업 특화 패키지입니다. 에이전트는 스킬이 관련이 있을 때만 이를 로드하며, 스킬 내부에서도 현재 작업에 필요한 부분만을 로드합니다. 이는 모델이 어떤 가이드를 언제 보는지라는 두 가지 요소를 동시에 변화시키기 때문에 중요합니다. 스킬은 컨텍스트 창(context window)을 가득 채우지 않으면서도 지침 파일보다 훨씬 더 상세한 내용을 담을 수 있으며, '생성 후 검토(Generate then Review)'라는 2단계 패턴은 모델이 출력을 완료하기 전에 자신의 결과물을 구조적으로 다시 한 번 살펴보게 합니다. 이러한 요소들이 결합되어 이번 보고서에서 스킬이 지침보다 더 나은 성능을 보이는 것입니다.

가장 먼저 평가된 스킬은 '접근 가능한 UI 구축(Building Accessible UI)'입니다. 이 스킬은 다음과 같은 목적을 위해 특수 제작되었습니다:

에이전트가 UI를 생성할 때 활성화되어, 생성된 코드가 기본적으로 더 높은 접근성을 갖도록 합니다.
다양한 컴포넌트(components)와 패턴(patterns)에 대한 전문가 수준의 가이드라인과 체크리스트를 포함합니다.
컨텍스트 창에 미치는 토큰 영향을 제한하기 위해, 구축 중인 특정 컴포넌트나 패턴에 대한 가이드라인만 가져옵니다.
2단계 워크플로를 실행합니다: UI를 생성한 다음, 스킬의 체크리스트에 따라 이를 검토하고 문제를 수정합니다.

변형(Variant) | 통과율(Pass rate) | 차이(Delta vs.)

control | Building Accessible UI, Generate (turn 1) | 82% | +70.4pp
Building Accessible UI, Review (turn 2) | 86% | +74.6pp

몇 가지 관찰 사항: 해당 스킬(skill)에서 가장 뛰어난 모델은 Gemini 3.1 Pro Preview로, control에서 8%를 기록했던 것과 동일한 모델입니다. 적절한 스캐폴딩 (scaffolding)이 있다면 약한 베이스라인 (baseline)도 선두 주자들을 능가할 수 있습니다. 리뷰 단계 (review turn)가 제 역할을 해줍니다. 에이전트에게 스킬의 체크리스트를 바탕으로 스스로 점검하도록 요청하는 것은 이미 강력한 첫 번째 단계에 5.6pp를 추가하며, 이는 실제 인간 접근성 검토자가 작업하는 방식에 더 가깝습니다. 스킬이 프롬프트 (prompt)를 지배하지는 않습니다. 지시 세트 (instruction sets)가 입력 토큰의 100%를 차지하는 것과 비교하면, 스킬 자체에서 오는 입력 토큰은 14%에서 18%에 불과합니다. 컨텍스트 윈도우 (context window)의 대부분은 여전히 실제 작업을 위해 자유롭게 사용할 수 있습니다.

비용 문제: 스킬은 품질 면에서는 승리하지만, 공짜는 아닙니다. 스킬의 리뷰 단계는 control에 비해 입력 토큰은 평균적으로 약 5.5배, API 호출은 2.7배 더 많습니다. 대규모 운영 시 이는 의미 있는 예산 영향(budget impact)을 미칩니다.

실용적인 구분: 지시 세트 (Instruction sets)는 광범위하고 항상 켜져 있는 가드레일 (guardrails)입니다. 저렴하고 배포하기 쉬우며, 사용된 토큰 대비 접근성 개선 효과가 가장 높습니다. 단점은 프로젝트가 접근성, 보안, 콘텐츠 등 여러 도메인에 대한 지시 사항을 가질 경우 커스텀 지시 사항 (custom instructions)의 토큰 영향이 빠르게 누적될 수 있다는 점입니다. 모든 팀의 기본값으로 사용하되 짧게 유지하십시오. 스킬 (Skills)은 높은 위험도가 따르는 작업이나 예산이 충분할 때 사용하는 집중적이고 절차적인 가이드입니다.

권장 사항: 이전 포스트의 조언은 여전히 유효하며, 한 가지 새로운 레버 (lever)가 추가되었습니다: 지금 즉시 프로젝트에 맞춤화된 지시 파일 (instruction file)을 배포하십시오. 기본 지시 사항에서 시작하여 귀하의 스택 (stack), 디자인 시스템 (design system), 컴포넌트 라이브러리 (component library)에 맞게 커스터마이징하십시오. 토큰 예산이 허용한다면 위험도가 높은 UI 작업을 위해 스킬을 추가하십시오. '생성(Generate) 후 리뷰(Review)'라는 2단계 패턴은 결과물을 실질적으로 개선합니다. CI/CD에 자동화된 접근성 검사를 통합하고, 퇴보 (regressions)가 발생할 경우 PR (Pull Request)을 차단하십시오. 장애인을 포함한 인간의 수동 테스트를 유지하십시오.

이러한 도구들(자동화된 체크, 지침 또는 스킬) 중 그 어떤 것도 모든 접근성 요구 사항을 충족할 수는 없습니다. 궤적은 변하지 않았습니다. AI는 우리가 배포하는 UI의 양을 계속해서 확장하고 있으며, 오픈 웹(open-web)의 학습 데이터는 그와 함께 접근 불가능한 패턴들을 계속해서 확장하고 있습니다. 최첨단 모델(Frontier models) 단독으로는 이 문제를 해결할 수 없습니다. Claude 4.7, Gemini 3.1, 그리고 GPT-5.5의 최신 결과가 이를 명확히 보여줍니다. 하지만 도구 상자는 변했습니다. 지침(Instructions)은 여전히 몇 분 안에 효과를 발휘합니다. 스킬(Skills)은 새로운 레버(lever)이자 강력한 수단입니다. 이러한 체크 항목에서 8%의 베이스라인 모델을 86%까지 끌어올릴 수 있습니다. 이제 남은 과제는 적절한 작업에 적절한 도구를 선택하고, 이를 CI(지속적 통합)에서 강제하며, 가장 중요한 지점에서 인간이 개입(human in the loop)하도록 유지하는 것입니다. 전체 보고서와 GitHub의 a11y-llm-eval 리포지토리를 확인하십시오.

AI 생성 접근성 업데이트 — 최첨단 모델들은 여전히 실패하지만, '스킬(skills)'이 판도를 바꾼다

요약

핵심 포인트

댓글