arXiv논문2026. 06. 26. 10:54

언어 에이전트의 작업 무감각성(Task Insensitivity) 진단

요약

LLM 에이전트가 유사한 작업 간의 차이를 구분하지 못하는 '작업 무감각성(Task Insensitivity)' 문제를 분석하고 그 원인을 규명합니다. 모델이 지시문보다 학습된 패턴에 의존하는 현상을 발견하였으며, 이를 해결하기 위한 새로운 최적화 기법을 제안합니다.

핵심 포인트

LLM 에이전트의 OOD 일반화 취약 원인인 작업 무감각성 식별
지시문 변경에도 기존 패턴을 유지하는 어텐션 드리프트 현상 발견
지름길 최적화 편향이 모델의 작업 민감도를 저해함을 입증
작업 섭동 NLL 최적화를 통한 작업 민감도 및 일반화 능력 향상

대규모 언어 모델(Large language models)은 유능한 장기적 에이전트(long-horizon agents) 역할을 수행할 수 있지만, 분포 외(out-of-distribution, OOD) 일반화 능력은 여전히 취약합니다. 우리는 이러한 실패의 핵심 원인을 작업 무감각성(task insensitivity)으로 식별했습니다. 즉, 유사하지만 서로 다른 작업에 직면했을 때, 모델이 학습 과정에서 습득한 패턴을 적용하여 당면한 작업을 해결하는 데 실패할 수 있다는 것입니다. 우리는 지시문(instruction)이 의미론적으로 손상되어 직접적으로 답변할 수 없는 상황에서도 모델이 종종 원래 작업과 일치하는 행동을 계속 수행한다는 것을 보여줍니다. 더 나아가, 학습된 프롬프트(prompt) 내의 작업 설명을 유사하지만 다른 작업으로 교체했을 때도 모델이 여전히 동일한 행동을 출력할 수 있음을 발견했습니다. 이러한 동작은 작업 토큰(task tokens)에서 멀어져 국소적 관찰(local observations)로 향하는 일관된 학습 시간 동안의 어텐션 드리프트(attention drift)를 동반하며, 이는 지름길(shortcuts)을 향한 최적화 편향(optimization bias)을 시사합니다. 이 문제를 완화하기 위해, 우리는 작업 지시문에 대한 행동 의존성을 명시적으로 장려하는 경량 대조 정규화 도구인 작업 섭동 NLL 최적화(Task-Perturbed NLL Optimization)를 제안합니다. 광범위한 평가를 통해 우리의 개입이 작업 토큰에 대한 더 안정적인 어텐션을 유지하면서도 작업 민감도(task sensitivity)와 OOD 일반화 능력을 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 에이전트의 작업 무감각성(Task Insensitivity) 진단

요약

핵심 포인트

댓글