DigitalCoach: 인간과 에이전트 기반 컴퓨터 사용 코칭에서의 커뮤니케이션 및 그라운딩 격차
요약
인간과 에이전트 간의 컴퓨터 사용 코칭 격차를 연구하기 위한 멀티모달 데이터셋 DigitalCoach를 소개합니다. 연구 결과, 현재 AI 모델은 인간에 비해 설명과 오류 진단 능력이 부족하며 시각적 그라운딩 측면에서 한계를 보였습니다.
핵심 포인트
- 72개의 전문가-초보자 코칭 세션을 포함한 DigitalCoach 데이터셋 공개
- AI 모델은 인간보다 직접적인 지시 위주로 코칭하는 경향이 있음
- 모델의 시각적 문맥(visual context)에 대한 그라운딩 능력 부족 확인
- 학습자의 능동적 참여를 유도하는 협력적 에이전트 연구의 토대 마련
에이전트(Agents)는 소프트웨어 작업을 자동화하는 능력이 점점 향상되고 있지만, 인간에게 소프트웨어 사용법을 직접 가르칠 수 있을까요? 우리는 5개의 소프트웨어 애플리케이션에 걸쳐 28.1시간의 화면 및 입력 이벤트 기록을 바탕으로 구성된 22,752개의 대화 턴을 포함하는 72개의 인간 전문가-초보자 컴퓨터 사용 코칭 세션으로 이루어진 멀티모달(multimodal) 데이터셋인 DigitalCoach를 소개합니다. 우리는 최첨단 모델들이 인간에게 컴퓨터 사용법을 가르칠 수 있는지 평가하기 위해 DigitalCoach를 사용합니다. 자동화된 평가 결과, 모델은 코칭 방식에 있어 인간과 차이를 보였습니다. 모델은 더 직접적인 지시를 제공하지만, 설명, 오류 진단 및 지식 확인 질문은 더 적게 제공합니다. 코칭 방식을 수정했을 때, 모델은 인간의 참조 데이터와 유사한 발화를 생성하지만 시각적 문맥(visual context)에 대한 그라운딩(grounding)은 미흡했습니다. 대화형 평가(Interactive evaluation)를 통해 모델 코치가 학습자로 하여금 더 깊은 참여 없이 지시를 수동적으로 따르게 만들며, 시각적 그라운딩(visual grounding) 측면에서 부족함이 있음을 확인했습니다. DigitalCoach는 협력적이고 능동적인 컴퓨터 사용 코칭 에이전트를 위한 토대를 마련합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기