본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:54

언어 에이전트의 작업 무감각성(Task Insensitivity) 진단

요약

LLM 에이전트가 유사한 작업 간의 차이를 구분하지 못하는 '작업 무감각성(Task Insensitivity)' 문제를 분석하고 그 원인을 규명합니다. 모델이 지시문보다 학습된 패턴에 의존하는 현상을 발견하였으며, 이를 해결하기 위한 새로운 최적화 기법을 제안합니다.

핵심 포인트

  • LLM 에이전트의 OOD 일반화 취약 원인인 작업 무감각성 식별
  • 지시문 변경에도 기존 패턴을 유지하는 어텐션 드리프트 현상 발견
  • 지름길 최적화 편향이 모델의 작업 민감도를 저해함을 입증
  • 작업 섭동 NLL 최적화를 통한 작업 민감도 및 일반화 능력 향상

대규모 언어 모델(Large language models)은 유능한 장기적 에이전트(long-horizon agents) 역할을 수행할 수 있지만, 분포 외(out-of-distribution, OOD) 일반화 능력은 여전히 취약합니다. 우리는 이러한 실패의 핵심 원인을 작업 무감각성(task insensitivity)으로 식별했습니다. 즉, 유사하지만 서로 다른 작업에 직면했을 때, 모델이 학습 과정에서 습득한 패턴을 적용하여 당면한 작업을 해결하는 데 실패할 수 있다는 것입니다. 우리는 지시문(instruction)이 의미론적으로 손상되어 직접적으로 답변할 수 없는 상황에서도 모델이 종종 원래 작업과 일치하는 행동을 계속 수행한다는 것을 보여줍니다. 더 나아가, 학습된 프롬프트(prompt) 내의 작업 설명을 유사하지만 다른 작업으로 교체했을 때도 모델이 여전히 동일한 행동을 출력할 수 있음을 발견했습니다. 이러한 동작은 작업 토큰(task tokens)에서 멀어져 국소적 관찰(local observations)로 향하는 일관된 학습 시간 동안의 어텐션 드리프트(attention drift)를 동반하며, 이는 지름길(shortcuts)을 향한 최적화 편향(optimization bias)을 시사합니다. 이 문제를 완화하기 위해, 우리는 작업 지시문에 대한 행동 의존성을 명시적으로 장려하는 경량 대조 정규화 도구인 작업 섭동 NLL 최적화(Task-Perturbed NLL Optimization)를 제안합니다. 광범위한 평가를 통해 우리의 개입이 작업 토큰에 대한 더 안정적인 어텐션을 유지하면서도 작업 민감도(task sensitivity)와 OOD 일반화 능력을 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0