arXiv논문2026. 06. 26. 11:41

동일한 검토, 더 많은 시간: LLM이 라벨링한 코드를 검토할 때의 시선 추적 통찰

요약

LLM이 생성한 코드가 라벨링되었을 때 소프트웨어 엔지니어들의 코드 리뷰 행동 변화를 시선 추적 실험을 통해 분석한 연구입니다. 연구 결과, 라벨링은 리뷰의 철저함 자체를 바꾸지는 않지만 특정 코드에 더 많은 시간을 고정하게 만드는 등 주의력에 영향을 미침을 확인했습니다.

핵심 포인트

LLM 생성 코드 라벨링은 개발자의 시선 고정 시간에 영향을 미침
개발자들은 논리적 정확성 등 특정 기준을 바탕으로 리뷰 전략을 조정함
리뷰어의 의도와 실제 행동 사이의 간극이 존재함
LLM 지원 개발을 위한 AI 정책 및 도구 설계의 필요성 강조

현대 소프트웨어 개발에는 코드를 생성하기 위해 대규모 언어 모델 (LLMs)을 사용하는 경우가 점점 늘어나고 있습니다. 이러한 급격한 발전에도 불구하고, LLMs는 여전히 오류와 환각 (hallucinations)에 취약하며, 이는 세심한 코드 검사의 중요성을 강조합니다. 그러나 실제 상황에서 LLM이 생성한 코드에 대한 개발자들의 신뢰도와 이를 철저히 검토하려는 의지는 이러한 권장 사항과 다를 수 있습니다. 개발자들이 LLM이 생성한 코드를 검토할 때 실제로 어떻게 행동하는지는 여전히 상당 부분 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 코드 리뷰 작업 중에 코드가 LLM 생성물로 명시적으로 라벨링되었을 때 소프트웨어 엔지니어들이 어떻게 행동하는지 조사하기 위해 Wizard-of-Oz 실험을 수행합니다. 우리는 시선 추적 (eye-tracking)과 종료 인터뷰를 통해 행동 데이터와 참가자 피드백을 모두 수집합니다. 베이지안 데이터 분석 (Bayesian data analysis)과 질적 분석을 결합한 결과, 코드 리뷰의 철저함 자체는 참가자들에게 변화가 없었지만, LLM 라벨이 붙은 코드에 더 많은 시간을 고정 (fixating)하여 보냈으며, 이는 라벨 자체가 주의력에 영향을 미친다는 것을 나타냅니다. 또한 실무자들은 특정 기준(예: 논리적 정확성)을 바탕으로 코드를 평가하거나, 프롬프트 (prompt)를 리뷰의 가이드로 사용함으로써 LLM 라벨링된 코드에 맞춰 리뷰 전략을 조정했습니다. 이러한 발견은 라벨링에 대한 LLM 기반 도구 설계와 프롬프트를 소프트웨어 산출물 (artifact)로 포함하는 설계에 정보를 제공합니다. 본 연구는 리뷰어의 의도와 실제 리뷰 행동 사이의 간극을 드러내며, 소프트웨어 기업들이 개발자들이 LLM 생성 코드를 더 잘 검토할 수 있도록 지원하기 위해 (특히 LLM 지원 개발과 관련하여) AI 정책을 재검토할 필요가 있음을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

동일한 검토, 더 많은 시간: LLM이 라벨링한 코드를 검토할 때의 시선 추적 통찰

요약

핵심 포인트

댓글