분류기 컨텍스트 로트: 성능이 컨텍스트 길이와 함께 저하됨
요약
본 기사는 언어 모델 기반 코딩 에이전트의 위험 행동 모니터링 시, 긴 전사 기록(500K 토큰 초과)에서 분류기 성능이 저하되는 문제를 지적합니다. Opus 4.6, GPT 5.4, Gemini 3.1 같은 최첨단 모델들은 특히 무해한 활동 이후에 발생하는 미묘하게 위험한 행동을 감지하는 데 어려움을 겪습니다. 이러한 장기 컨텍스트 저하를 고려하지 않는 모니터 평가는 실제 성능을 과대평가할 수 있습니다.
핵심 포인트
- 언어 모델 분류기는 긴 전사 기록(500K 토큰 이상)에서 위험 행동 감지 성능이 떨어지는 경향을 보입니다.
- Opus 4.6, GPT 5.4, Gemini 3.1 등 최신 모델들은 장기 컨텍스트 이후의 미묘한 위험 행동 식별에 어려움을 겪습니다.
- 주기적인 알림(prompting) 기법이나 사후 훈련(post-training)을 통해 이러한 장기 컨텍스트 저하 문제를 부분적으로 완화할 수 있습니다.
- 장기 컨텍스트 성능 저하를 고려하지 않은 모니터 평가는 모델의 실제 성능을 과대평가할 위험이 있습니다.
언어 모델을 사용하여 코딩 에이전트의 위험한 행동을 모니터링하려면 종종 500K 토큰을 초과하는 전사 기록(transcripts)을 분류해야 합니다. 그러나 기존의 에이전트 모니터링 벤치마크는 100K 토큰보다 긴 전사 기록을 거의 포함하지 않습니다. 우리는 현재의 최첨단 모델들이 분류기로 사용될 때, 더 긴 전사 기록에서 위험한 행동을 감지하는 데 실패하는 경향이 있다는 것을 보여줍니다. 특히, 코딩 에이전트가 미묘하게 위험한 행동을 하는 시점을 식별해야 하는 데이터셋에서, Opus 4.6, GPT 5.4, 그리고 Gemini 3.1은 해당 행동이 독립적으로 발생했을 때보다 800K 토큰의 무해한 활동 이후에 발생할 경우 $2 imes$에서 $30 imes$ 더 자주 이 행동들을 놓칩니다. 또한 우리는 이러한 약점들이 전사 기록 전체에 걸쳐 주기적인 알림과 같은 프롬프팅 기법으로 부분적으로 완화될 수 있으며, 더 나은 사후 훈련(post-training)을 통해 추가로 완화될 수 있음을 보여줍니다. 장기 컨텍스트 저하를 고려하지 않는 모니터 평가들은 모니터 성능을 과대평가할 가능성이 높습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기