당신의 마우스와 시선이 비밀스럽게 선호도를 유출합니다: 사용자의 암묵적 피드백을 이용한 LLM 정렬 (Alignment)
요약
사용자의 마우스 궤적과 시선 데이터를 활용하여 LLM의 정렬(Alignment) 성능을 높이는 연구를 소개합니다. 기존의 명시적 피드백 방식의 비용 문제를 해결하기 위해 암묵적 피드백 데이터셋인 IFLLM을 구축하고 그 효과를 입증했습니다.
핵심 포인트
- 명시적 피드백 대신 마우스와 시선 등 암묵적 피드백 활용
- 새로운 멀티턴 데이터셋 IFLLM 구축 및 공개
- 보상 모델의 정확도를 55%에서 64%로 향상
- DPO 적용 시 응답 품질 개선도를 약 3배 증가시킴
대규모 언어 모델 (LLM)을 정렬 (Alignment)하기 위해, 대부분의 기존 방법들은 명시적인 인간 피드백 (explicit human feedback)을 수집하고 응답 텍스트를 기반으로 인간의 선호도를 예측하는 보상 모델 (reward model)을 학습시킵니다. 이러한 기존 방법들은 두 가지 주요 한계점을 가지고 있습니다. 첫째, 사용자들이 LLM 응답에 대해 명시적인 피드백을 제공하는 경우가 드물기 때문에, 고품질의 선호도 주석 (preference annotation)을 수집하는 데 많은 비용이 듭니다. 둘째, 인터넷 거대 기업들의 경제적 해자 (economic moats)를 구축하는 데 필수적임이 증명된 암묵적 인간 피드백 (implicit human feedback)을 활용하지 못합니다. 암묵적 피드백의 가치를 정량화하기 위해, 우리는 59명의 Mechanical Turk 작업자로부터 수집된 1336개의 멀티턴 (multi-turn) 질문, 그들의 마우스 궤적 (mouse trajectories), 그리고 웹캠을 통한 LLM 응답에 대한 시선 (eye gazing) 지점을 포함하는 IFLLM이라는 새로운 데이터셋을 구축했습니다. IFLLM은 사용자들이 매우 다양한 유형의 시선 행동과 마우스 궤적을 가지고 있음을 보여줍니다. 암묵적 사용자 피드백에 기반한 우리의 보상 모델은 텍스트 기반 보상 모델의 정확도를 55%에서 64%로 높였으며, 8개의 LLM에 DPO를 적용한 후 상대적인 응답 품질 개선도를 거의 3배로 증가시켜, 실제 환경에서 암묵적 피드백의 가치를 입증했습니다. 우리의 데이터 수집 웹사이트, 데이터셋, 그리고 코드는 https://github.com/themehulpatwari/llm-implicit-feedback/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기