Harvard, MIT, Boston Consulting Group 연구팀의 ChatGPT 활용 실험 결과

요약

Harvard, MIT, BCG 연구팀이 758명의 컨설턴트를 대상으로 진행한 ChatGPT 활용 실험 결과입니다. AI가 업무 효율을 높이지만, 특정 과업에서는 오히려 성과를 저하시키는 '들쭉날쭉한 경계(jagged frontier)' 현상을 발견했습니다.

핵심 포인트

AI는 업무량 12.2% 증가, 품질 40% 향상 등 생산성을 높임
'들쭉날쭉한 경계'로 인해 AI가 특정 과업에서 성과를 저하시킴
AI는 상위권보다 하위권의 성과를 더 크게 끌어올려 격차를 줄임
단기 교육만으로는 AI의 오용과 신뢰 함정을 방지하기 어려움

Harvard, MIT, 그리고 Boston Consulting Group의 연구팀은 758명의 현직 컨설턴트를 대상으로 ChatGPT를 활용한 단일 실험을 진행했습니다.

같은 날, 같은 도구를 사용했음에도 불구하고 한 그룹은 업무 능력이 극적으로 향상된 반면, 다른 그룹은 측정 가능한 수준으로 업무 능력이 저하되었습니다.

이 연구는 BCG와 협력하여 Harvard의 Fabrizio Dell'Acqua, MIT Sloan의 Kate Kellogg, Wharton의 Ethan Mollick, 그리고 Harvard의 Karim Lakhani가 주도했습니다. 이 연구는 2023년 9월 Harvard Business School Working Paper 24-013로 발표되었으며, AI와 화이트칼라 (white-collar) 업무에 대해 수행된 역대 최대 규모의 통제 실험 중 하나입니다.

연구진은 758명의 실제 BCG 컨설턴트를 모집했습니다. 그중 절반에게는 GPT-4를 제공했고, 나머지 절반에게는 아무것도 제공하지 않았습니다. 그런 다음 모든 참가자에게 컨설턴트들이 실제 유료 고객을 위해 수행하는 유형의 업무인 동일한 18가지 과업을 부여했습니다.

그다음에 일어난 일은 거의 아무도 제대로 이야기하지 않는 부분입니다.

한 세트의 과업에서 GPT-4를 사용한 컨설턴트들은 업무량을 12.2% 더 많이 완료했고, 25.1% 더 빠르게 마쳤으며, 40% 이상 더 높은 품질의 결과물을 만들어냈습니다. 이들 중 약 90%가 개선된 성과를 보였습니다.

하지만 다른 세트의 과업에서는 동일한 도구를 사용한 동일한 컨설턴트들이 정답을 맞힐 확률이 19%포인트 더 낮았습니다.

동일한 사람들. 동일한 AI. 정반대의 결과.

연구진은 이 두 영역 사이의 경계선을 '들쭉날쭉한 경계 (jagged frontier)'라고 불렀습니다. AI는 어떤 과업에서는 매우 뛰어나지만, 다른 과업에서는 조용히 형편없는 모습을 보이며, 그 경계는 인간이 예상하는 어떠한 논리도 따르지 않습니다. AI에게 어려워 보이는 과업은 종종 쉬운 경우가 많습니다. 반대로 쉬워 보이는 과업이 AI가 실패하는 지점인 경우가 많습니다.

그리고 컨설턴트들은 그 차이를 구분할 수 없었습니다.

그들은 두 영역 모두에서 AI를 신뢰했습니다. 두 영역 모두에서 자신 있게 AI를 사용했습니다. 경계의 올바른 쪽에서 그 자신감은 그들을 스타로 만들었습니다. 하지만 잘못된 쪽에서 그 자신감은 AI를 전혀 사용하지 않은 동료들보다 그들을 더 못하게 만들었습니다.

그리고 연구진은 이러한 도구를 실제 업무에 사용하는 모든 이들을 괴롭힐 법한 그 경계선을 찾아냈습니다.

가장 큰 혜택을 본 컨설턴트들은 상위 성과자들이 아니었습니다. 그들은 하위 절반이었습니다. 평균 성과 임계값(performance threshold) 아래에 있는 사람들은 43% 향상되었습니다. 그 위에 있는 사람들은 17% 향상되었습니다.

AI는 천장(ceiling)을 높이는 것보다 바닥(floor)을 훨씬 더 많이 끌어올렸습니다.

이는 AI가 지식 노동(knowledge work)에 조용히 수행하고 있는 일이 최고를 더 뛰어나게 만드는 것이 아님을 의미합니다. 대신 최고와 나머지 사람들 사이의 격차를 줄이고 있습니다. 이제 GPT-4를 사용하는 주니어 컨설턴트는 이를 사용하지 않는 시니어 컨설턴트의 결과물과 매우 유사한 업무를 수행합니다.

그리고 여기 논문이 각주에 묻어둔 부분이 있습니다.

연구팀은 GPT-4 사용법에 대한 30분간의 교육이 사람들이 외부 경계 함정(outside-frontier trap)에 빠지는 것을 방지할 수 있는지 테스트했습니다. 결과는 그렇지 않았습니다. 교육을 받은 컨설턴트들도 여전히 잘못된 과업에서는 성과가 저하되었습니다. 어떤 경우에는 교육을 받지 않은 사람들보다 더 나빠지기도 했는데, 이는 교육이 그들로 하여금 도구를 더 신뢰하게 만들었기 때문입니다.

따라서 여러분에게 남겨진 그림은 다음과 같습니다.

AI는 우리가 계속해서 묘사하는 방식의 생산성 도구가 아닙니다. AI는 보이지 않는 영역에서는 성과 증폭기(performance amplifier)이며, 바로 옆의 영역에서는 성과 파괴자(performance destroyer)입니다. 이 함정에서 벗어날 수 있는 유일한 사람들은 모든 결과물이 틀릴 수도 있다고 가정하며 다루는 사람들뿐입니다.

대부분의 사람들은 그렇게 하지 않을 것입니다. 대부분의 사람들은 자신감 있게 들리는 답변을 신뢰할 것입니다. 대부분의 사람들은 더 빨라지는 동시에 더 나빠질 것이며, 업무가 여전히 완성된 것처럼 보이기 때문에 그 사실을 알아차리지 못할 것입니다.

연구에 참여한 컨설턴트들 역시 알아차리지 못했습니다.

이것이 바로 아무도 슬라이드에 올리지 않는 연구 결과입니다.
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

Harvard, MIT, Boston Consulting Group 연구팀의 ChatGPT 활용 실험 결과

요약

핵심 포인트

댓글