arXiv논문2026. 06. 26. 11:26

주의력 결핍 격차 (Inattentional Gap): 작업 조건부 언어 및 시각 모델이 보고 가능한 안전 필수 신호를 누락하는 현상

요약

특정 작업에 조건화된 언어 및 시각 모델이 안전 필수 신호를 누락하는 '주의력 결핍 격차(Inattentional Gap)' 현상을 연구했습니다. 이는 모델 규모나 추론 능력과 관계없이 나타나며, 벤치마크 점수와 실제 안전성 사이의 괴리를 유발합니다.

핵심 포인트

작업 조건화가 모델의 안전 필수 신호 탐지 능력을 억제함
인간의 부주의적 맹시와 유사한 기계적 현상 발견
모델 규모(Scale)가 커져도 이 현상은 줄어들지 않음
벤치마크 안전성 점수가 실제 안전성을 보장하지 못할 수 있음

AI 안전성 (AI safety)은 모델이 찾아내도록 지시받은 위험 요소를 얼마나 신뢰성 있게 탐지하는지에 따라 평가되지만, 사고는 종종 아무도 지정하지 않은 위험 요소로 인해 발생합니다. 본 연구에서는 언어 모델 (Language Model) 또는 시각 모델 (Vision Model)을 좁은 작업 (Task)에 조건화 (Conditioning)하는 것이, 모델이 평소라면 보고할 수 있었던 공존하는 안전 필수 신호 (Safety-critical signals)의 보고를 억제한다는 것을 보여줍니다. 이는 다른 메커니즘에서 기인하는 인간의 부주의적 맹시 (Inattentional blindness)와 유사한 기계적 현상입니다. 방사선학 및 주행 텍스트 시나리오와 흉부 방사선 사진 시각 작업 전반에 걸쳐, 테스트된 모든 모델에서 이러한 억제 현상이 나타났습니다. 이 현상은 규모 (Scale)가 커진다고 해서 줄어들지 않았으며, 추론 모델 (Reasoning model)에서도 지속되었고, 모델의 크기보다는 모델 제품군 (Model family)에 따라 더 크게 변했습니다. 반면, 동일한 모델들이 제약이 없을 때는 이러한 신호들을 실질적으로 훨씬 더 높은 비율로 보고했습니다. 우리는 이러한 괴리를 주의력 결핍 격차 (Inattentional Gap)라고 명명하며, 이것이 측정된 벤치마크 안전성과 실제 세계의 안전성을 분리시킨다고 주장합니다. 즉, 시스템은 평가에서 지정한 위험 요소에 대해서는 거의 완벽한 점수를 받을 수 있지만, 실제 해를 끼치는 요소들에 대해서는 여전히 눈이 먼 상태로 남아 있을 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

주의력 결핍 격차 (Inattentional Gap): 작업 조건부 언어 및 시각 모델이 보고 가능한 안전 필수 신호를 누락하는 현상

요약

핵심 포인트

댓글