LLM 기반 웹 접근성 수정: 탐지, 복구 및 비용에 관한 실증적 연구
요약
LLM 기반 에이전트인 Kimi K2.5를 활용하여 웹 접근성 탐지 및 복구 성능을 실증적으로 분석한 연구입니다. LLM은 의미론적 이해도는 높으나 구문 및 레이아웃 오류에는 취약하며, 반복적인 정교화 과정이 비용 대비 효율이 낮음을 확인했습니다.
핵심 포인트
- LLM은 의미론적 접근성 탐지에서 규칙 기반 도구와 유사한 성능을 보임
- 복구된 수정 사항의 99.7%는 구문적으로 유효하나 완전 해결률은 26% 미만
- 에이전트 기반 반복 정교화는 비용을 52% 증가시키나 결과 개선은 미비함
- LLM과 규칙 기반 검증을 결합한 하이브리드 접근 방식의 필요성 제시
규칙 기반 (rule-based) 도구는 커버리지가 제한적인 반면, 수동 복구 (manual remediation)는 비용이 많이 들고 오류가 발생하기 쉽기 때문에 대규모 웹 접근성 (web accessibility)을 보장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문은 규칙 기반 접근 방식과 비교하여 자동화된 접근성 탐지 및 복구를 위해 대규모 언어 모델 (LLM) 기반 에이전트, 특히 Kimi K2.5를 평가합니다. 탐지 측면에서 LLM은 F1 스코어 약 0.65로 규칙 기반 도구와 유사한 성능을 달성하였으며, F1 스코어 0.83으로 강력한 의미론적 이해 (semantic understanding)를 보여주었으나, 구문 (syntactic) 및 레이아웃 관련 위반 사항에 대해서는 신뢰도가 낮았습니다. 복구 측면에서 LLM이 생성한 수정 사항은 99.7% 이상의 사례에서 구문적으로 유효하였으며, 80.2%의 사례에서 접근성 준수율을 개선하여 파일당 위반 사항을 3.98개에서 1.7개로 줄였습니다. 그러나 완전히 해결된 사례는 26% 미만이었으며, 약 30%의 패치 (patch)는 구조적 변화를 유발했습니다. 또한, 반복적인 에이전트 기반 정교화 (iterative agent-based refinement) 과정이 복구 결과를 개선하지 못하면서도 계산 비용 (computational cost)을 52% 증가시키고 API 사용량을 1.64배 증가시킨다는 점을 발견했습니다. 이러한 연구 결과는 LLM이 부분적인 접근성 복구에는 효과적이지만, 완전하고 신뢰할 수 있는 복구에는 불충분함을 나타냅니다. 확장 가능한 접근성 솔루션은 LLM의 역량과 규칙 기반 검증 (rule-based validation) 및 제약 조건 인식 수정 (constraint-aware correction) 메커니즘을 결합한 하이브리드 접근 방식이 필요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기