「AI의 제안에 얼마나 사람을 따르게 할 것인가」는 잘못된 질문이다 ── 논문 소개 #1

서론

안녕하세요. 아그리페디아(Agripedia) 주식회사의 노구치입니다.

AI에 의한 예측이나 추천을 「어드바이저(Advisor)」로서 인간의 의사결정에 통합하는 프로덕트는 이제 더 이상 드물지 않습니다. 대출 심사, 의료 스크리닝, 콘텐츠 모데레이션(Content Moderation), 그리고 우리가 매일 마주하는 업무 시스템 속의 「AI가 제안하고 인간이 확정하는」 플로우. 이러한 **AI-assisted decision-making (AI 보조 의사결정)**을 설계할 때, 우리는 무의식적으로 다음과 같은 목표를 세우곤 합니다.

「어떻게 하면 사용자에게 AI의 제안을 수용하게 만들 것인가」

하지만, 이 질문을 던지는 방식 자체가 틀렸다고 주장하는 논문이 있습니다. 본 기사에서는 IUI 2023에서 발표된 Schemmer 등의 "Appropriate Reliance on AI Advice: Conceptualization and the Effect of Explanations"를 소재로, AI 어드바이저 기능을 만드는 개발자가 실무적으로 가져갈 수 있는 지견을 정리합니다.

한 줄 요약

AI 어드바이스의 목표는 「얼마나 따르게 할 것인가」가 아니라 「옳을 때만 따르고, 오류는 물리치게 하는 것」(= appropriate reliance, 적절한 의존)이다. 그리고 설명(XAI)은 이 문제의 절반밖에 해결하지 못한다.

이하, 왜 그렇게 말할 수 있는지 순서대로 살펴보겠습니다.

왜 「수용률의 최대화」로는 안 되는가

지난 10년간의 Human-AI 연구는 reliance (의존) / trust (신뢰) / acceptance (수용) 등의 용어로 표현되는, 요컨대 「AI의 제안에 얼마나 따르게 할 것인가」를 최대화하는 데 주력해 왔습니다. 이는 AI가 완벽(perfect)하다면 올바른 목표입니다. 항상 옳다면, 항상 따르게 하는 것이 베스트이기 때문입니다.

하지만 현실의 AI는 imperfect (불완전)합니다. 복잡한 태스크에 사용될수록 오류의 수와 심각도도 증가합니다. 여기서 「수용률의 최대화」를 추구하면, 잘못된 제안까지 수용하게 만들어 버립니다. 의사가 AI의 오진에 끌려가 암을 놓치는 것이 논문에서 제시하는 극단적인 예입니다.

지향해야 할 점은, 인간이 언제 AI에 의존하고, 언제 자신의 판단을 믿을지를 변별할 수 있는 상태입니다. 논문은 이를 **appropriate reliance (AR, 적절한 의존)**라고 부릅니다.

2가지 종류의 「실패」를 나누어 생각하기

이 부분이 이 논문에서 가장 실무적으로 유효한 포인트입니다. reliance의 실패에는 방향이 다른 두 가지 종류가 있습니다.

실패의 종류	일어나고 있는 일
under-reliance (과소 의존)	AI가 맞는데도, 인간이 자신의 잘못된 판단을 고집하며 무시함
over-reliance (과잉 의존)	인간이 맞았는데도, AI의 잘못된 제안에 끌려가 따라버림

「수용률」이라는 하나의 숫자만 보고 있어서는 이 두 가지를 구별할 수 없습니다. 수용률이 낮을 때, 그것이 「오류를 현명하게 물리치고 있는 것(좋음)」인지 「올바른 제안까지 무시하고 있는 것(나쁨)」인지 판단할 수 없는 것입니다.

계측의 핵심: 「AI를 보기 전의 판단」을 반드시 기록할 것

그렇다면 under와 over를 어떻게 분리하여 측정할까요. 논문은 **judge-advisor system (JAS, 판사-조언자 시스템)**이라는 고전적인 패러다임을 따라 다음의 3단계를 거치게 합니다.

인간이 먼저 AI를 보지 않고 단독으로 판단한다 (+ 확신도)
AI의 어드바이스를 받는다
판단을 업데이트한다 (변경해도 좋다)

스텝 1을 기록하는 것이 결정적으로 중요합니다. 이것이 없으면, 최종적으로 정답이었던 케이스가 「변별의 결과」인지 「인간과 AI가 원래 일치했을 뿐(confirmation, 확인)」인지 구별할 수 없습니다. 논문은 confirmation 케이스를 명시적으로 제외한 상태에서, 인간과 AI의 판단이 엇갈린 케이스만을 대상으로 두 가지 지표를 정의합니다.

RAIR (Relative AI Reliance, 상대적 AI 의존도)

인간이 처음에 틀렸고 & AI가 맞았던 케이스 중, 올바르게 AI를 따라 정답에 도달한 비율.

→ 이것이 낮으면 = under-reliance가 많음

RSR (Relative Self-Reliance, 상대적 자기 의존도)

인간이 처음에 맞았고 & AI가 틀렸던 케이스 중, 올바르게 자신을 믿어 정답을 유지한 비율.

→ 이것이 낮으면 = over-reliance가 많음

이 (RSR, RAIR)

이 쌍을 **Appropriateness of Reliance (AoR)**라고 부릅니다 (논문 Figure 2의 2차원 플롯). 두 지표 모두 1.0인 것이 이론적인 이상향이지만, 무작위적인 오류는 원리적으로 구별할 수 없기 때문에 현실적으로는 도달할 수 없습니다.

설명 (XAI)은 무엇을 해결하고, 무엇을 해결하지 못하는가

논문의 주요 실험은 이 측정 개념을 사용하여 "설명을 제공하면 AoR이 개선되는가"를 검증합니다.

태스크: 호텔 리뷰가 실제인지 조작된 것인지에 대한 진위 판정
AI: 정확도 86%의 SVM (Support Vector Machine)
설명: LIME을 통한 feature importance (중요 단어 하이라이트)
피험자: 200명, 설명 있음/없음의 between-subject (피험자 간 설계)

결과는 다음과 같았습니다 (논문 Table 3, Figure 6).

지표	설명 없음	설명 있음	유의미한 차이
RAIR (under-reliance의 반대 지표)	29.59%	38.87%	있음
RSR (over-reliance의 반대 지표)	71.87%	69.45%	없음

읽어낼 수 있는 메시지는 명확합니다.

설명은 RAIR을 높인다 = under-reliance (과소 신뢰)를 줄인다. 인간이 설명을 통해 태스크 지식을 학습하고, "과연, 이것은 따라야겠다"라고 올바르게 판단을 바꿀 수 있게 된다. 논문은 이를 "인간을 judge(심판)가 아니라 **student(학생)**로 보아야 한다"라고 표현하고 있습니다.
설명은 RSR을 움직이지 않는다 = over-reliance (과잉 신뢰)는 줄어들지 않는다. "근거를 보여주면 오류를 알아차릴 것이다"라는 직관은 적어도 이 태스크에서는 성립하지 않았습니다.

나아가 구조 방정식 모델링 (SEM) 분석에서는, 설명 $\rightarrow$ RAIR의 효과가 확신도 (confidence)의 변화에 의해 부분적으로 매개된다는 것을 알 수 있었습니다. 반면 설명은 trust (신뢰)에는 영향을 미치지 않으며, trust는 독립적으로 RAIR을 높이고 RSR을 낮춘다는 관계도 확인되었습니다.

개발자를 위한 실천적 테이크홈 (Take-home)

논문의 지견을 AI 어드바이저 기능을 만드는 입장에서 번역하면 다음과 같습니다.

1. "AI 제시 전의 판단"을 수집할 수 있는 UI / 로그 설계

이것이 모든 전제 조건입니다. HITL (human-in-the-loop) 플로우라면, AI가 후보를 채우기 전에 사용자의 잠정 입력 및 잠정 판단을 취득하고 기록할 수 있는 설계로 해두면, 나중에 "올바르게 수정했어야 했는데 놓쳤다 (under)"와 "AI가 맞았는데 인간이 망쳤다 (over)"를 분리하여 분석할 수 있습니다.

2. 설명과 "맹신 방지"를 분리할 것

사용자가 AI로부터 배우기를 원한다면 (under-reliance를 줄이고 싶다면) 설명은 유효합니다. 하지만 오류에 대한 맹신 (over-reliance)을 방지하고 싶다면 설명 이외의 기제를 검토해야 합니다. 예를 들어:

cognitive forcing: 결론을 즉시 보여주지 않고, 한 번 스스로 생각하게 한 뒤에 제시함
confidence-aware (확신도 인지형) 개입: AI의 확신도가 낮을 때만 인간에게 명시적인 체크를 촉구함

3. 확신도는 "절대값"보다 "변화량"을 볼 것

SEM에서 효과가 있었던 것은 정적인 자신감이 아니라, 어드바이스를 본 후에 확신도가 어떻게 움직였는가였습니다. 개입의 임계값 (threshold)을 설계한다면, 사용자의 확신도 그 자체보다 "AI 제시로 인해 확신이 움직였는가"를 시그널로 삼는 것이 더 합리적입니다.

4. 효과 크기를 그대로 이식하지 말 것

논문은 효과의 방향을 보여주었지만, 사실 인간-AI 팀의 성능이 인간 단독 또는 AI 단독을 상회하는 상태 (complementary team performance, CTP)에는 도달하지 못했으며, 그런 의미에서 AR은 "달성되지 않았다"라고 보고하고 있습니다. 태스크 (기만 탐지)가 인간에게 너무 어려웠던 점, 순차적인 실험 설계가 anchoring effect (정박 효과)를 유발하여 RAIR을 구조적으로 낮추었을 가능성을 저자 스스로도 인정하고 있습니다.

따라서 "설명을 제공하면 RAIR이 약 9포인트 상승한다"를 자신의 도메인에 그대로 적용하는 것은 위험합니다. 자신의 프로덕트에서 AoR을 측정할 수 있는 계측 기반을 만들고, 자신의 데이터로 검증한다 ── 이것이 결국 가장 중요한 테이크홈일지도 모릅니다.

요약

AI 어드바이저(AI Advisor)의 목표는 「수용률의 최대화」가 아니라
appropriate reliance (적절한 의존: 올바를 때만 따르게 함)이다.
reliance (의존)의 실패는
under-reliance (과소 의존)와 over-reliance (과잉 의존)의 두 방향이 있으며, 별개로 측정할 필요가 있다. 이를 위해 AI 제시 전의 판단을 기록한다.
설명 (XAI)은 under-reliance를 줄이지만 (인간이 AI로부터 학습함),
over-reliance는 줄이지 못한다. 맹신 방지를 위해서는 별도의 메커니즘이 필요하다.
확신도는 절대값보다
변화량을 본다.
효과량은 무조건 믿지 말고,
자신의 프로덕트에서 AoR을 측정하여 검증한다.

「얼마나 따르게 할 것인가」에서 「올바르게 판별하게 할 것인가」로. AI를 프로덕트에 통합하는 모든 개발자에게 관점을 한 단계 업데이트해 주는 논문이었습니다.

참고 문헌

Schemmer et al.
Appropriate Reliance on AI Advice: Conceptualization and the Effect of Explanations. IUI '23. https://doi.org/10.1145/3581641.3584066
Buçinca et al.
To trust or to think: cognitive forcing functions can reduce overreliance on AI in AI-assisted decision-making. CSCW 2021.
Lai et al.