arXiv논문2026. 05. 12. 02:17

AI 평가를 위한 '사과와 사과' 비교로: 실제 사용 사례에서 평가 시나리오까지

요약

본 연구는 AI 평가의 일관성과 신뢰성을 높이기 위해 '사과와 오렌지' 비교 문제를 해결하는 방법론을 제시합니다. 핵심은 구조화된 AI 사용 사례 워크시트를 활용하여 주제 전문가(SMEs)로부터 실제 산업 기반의 상세한 AI 사용 시나리오를 도출하고, 이를 LLM 프롬프팅과 인간 검토가 결합된 3단계 확장 파이프라인으로 변환하는 반복 가능한 프로세스를 구축하는 것입니다. 이 방법론은 금융 서비스 분야 사례를 통해 그 유용성을 입증하며, 운영 기반 마련(operational grounding)을 보장하여 보다 일관되고 의미 있는 인간 중심 AI 평가 패러다임을 지원합니다.

핵심 포인트

AI 평가의 비일관성 문제('apples-to-oranges')를 해결하기 위한 체계적인 방법론 제시.
구조화된 'AI 사용 사례 워크시트'는 사용 사례, 산업 분야, 사용자, 예상 영향(긍정/부정), KPI 등 6가지 핵심 요소를 포함한다.
SMEs가 도출한 고수준 사용 사례를 상세 시나리오로 변환하는 3단계 확장 파이프라인을 제안한다.
운영 기반 마련을 위해 모든 단계에 걸쳐 인간 검토(Human Checkpoints)를 통합하여 현실성을 확보한다.

AI 측정 과학은 AI 시스템을 비교하기 위해 광범위한 방법론과 측정을 가지고 있어, 종종 AI 평가 전반에 걸쳐 '사과와 오렌지(apples-to-oranges)'처럼 보이는 비교 결과를 낳습니다. 실제 AI 평가에서 '사과와 사과' 비교를 향해 나아가기 위해, 본 연구는 평가 시나리오에서의 방법론적 투명성, 운영 기반 마련(operational grounding), 그리고 인간 중심 설계(Human-Centered Design, HCD) 원칙을 제창합니다. 우리는 구조화된 AI 사용 사례 워크시트(AI Use Case Worksheet)를 통해 주제 전문가(Subject Matter Experts, SMEs)로부터 사용 사례를 도출하고 이를 상세 시나리오로 변환하는 반복 가능한 프로세스를 제안합니다. 이 워크시트는 사용 사례, 산업 분야(sector), 사용자(직접 및 간접), 의도된 결과, 예상 영향(긍정적 및 부정적), 그리고 핵심 성과 지표(KPIs) 및 측정 항목의 6가지 주요 요소를 포함합니다. 우리는 미국 금융 서비스 부문에서 이 워크시트와 프로세스의 유용성을 입증합니다. 본 논문은 금융 서비스 분야 SMEs가 식별한 예시적인 고수준 AI 사용 사례들, 즉 사이버 방어 역량 강화(cyber defense enablement), 개발자 생산성 향상(developer productivity), 금융 범죄 집계(financial crime aggregation), 의심 거래 보고서(Suspicious Activity Report, SAR) 제출, 신용 메모 생성(credit memo generation), 그리고 내부 콜센터 지원에 대해 보고합니다. 제공된 이 AI 사용 사례들은 프로세스를 보여주기 위한 예시일 뿐이며 포괄적이지는 않습니다. 본 연구의 핵심은 LLM 프롬프팅과 인간 검토를 결합한 3단계 확장 파이프라인을 통해 SMEs로부터 도출된 해당 사용 사례들로부터 107개의 시나리오를 생성하는 것입니다. 이 프로세스는 운영 기반 마련을 보장하기 위해 모든 단계에서 반복적인 인간 검토를 통합합니다: 시나리오 제목과 설명에 대해

tions; for core scenario elements like users, benefits and risks, and metrics; and for scenario narratives and evaluation objectives. Human checkpoints ensure scenarios remain reflective of real-world usage and human needs. We describe a validation rubric to assess scenario quality. By defining key scenario components, this work supports a more consistent and meaningful paradigm for human-centered AI evaluations.

AI 자동 생성 콘텐츠

원문 바로가기

AI 평가를 위한 '사과와 사과' 비교로: 실제 사용 사례에서 평가 시나리오까지

요약

핵심 포인트

댓글