arXiv논문2026. 05. 27. 11:33

보편적인 절벽과 설계 지문: LLM 오케스트레이션 하에서의 교차 섹션 결함 탐지

요약

LLM 오케스트레이션 환경에서 에이전트들이 요청을 분할 처리할 때 발생하는 '교차 섹션 결함' 탐지 능력이 급격히 저하되는 현상을 연구했습니다. 모델의 규모 확장이나 추론 능력 강화로도 해결되지 않는 구조적 절벽과 정렬(Alignment) 방식에 따른 허위 경보 발생 패턴을 분석했습니다.

핵심 포인트

오케스트레이션 시 교차 섹션 결함 탐지율이 2/3 이상 급락하는 '보편적 탐지 절벽' 발견
모델 규모 확장 및 확장된 추론(Extended reasoning)으로도 해결 불가능한 구조적 문제
정렬(Alignment) 강화 시 결함 탐지는 늘지만 허위 경보(False alarms)가 증가하는 트레이드오프 발생
자동화된 판정기(Automated judge)의 낮은 정밀도와 신뢰성 한계 지적

상용 언어 모델 (Language-model) 시스템은 요청을 하나의 통합된 보고서로 재구성하는 보이지 않는 워커 에이전트 (Worker agents)의 오케스트레이션 (Orchestration)을 통해 요청을 분할하여 응답합니다. 우리는 이것이 단일 워커는 볼 수 없는 부류의 결함, 즉 문서의 멀리 떨어진 두 섹션 사이의 관계에서 발생하는 모순에 어떤 영향을 미치는지 질문합니다. 문서, 결함, 메커니즘, 점수 산정 및 시드 (Seed)를 고정한 상태에서, 우리는 모델만을 변경했습니다. 한 개발사의 5개 세대에 걸친 10개 시스템과 서로 다른 정렬 (Alignment) 패러다임을 가진 5개 제공사의 시스템을 대상으로 했습니다. 두 가지 층위가 분리되어 나타납니다. 첫째, 보편적인 탐지 절벽 (Universal detection cliff)입니다. 단일 에이전트 하에서 이러한 교차 섹션 결함을 찾아내는 모든 모델은 오케스트레이션 하에서 그 능력을 상실하며, 테스트된 모든 패러다임에서 탐지율이 3분의 2 이상 급락합니다. 이 절벽은 메커니즘에서 기인하며 규모 (Scale) 확장이나 확장된 추론 (Extended reasoning)으로도 해결되지 않습니다. 둘째, 절벽 아래로 떨어진 후 모델이 어떻게 행동하는가입니다. 신호 탐지 분해 (Signal-detection decomposition) 결과, 우연 확률 이상으로 구별해내는 6개 모델 중 단 한 개발사의 세대들만이 보고 기준 (Reporting-criterion) 축을 따라 이동함을 보여줍니다. 즉, 정렬 (Alignment)이 강화됨에 따라 모델은 결함을 더 적게 놓치지만, 깨끗한 문서에 대해 더 많은 허위 경보 (False alarms)를 발생시킵니다. 이는 하나의 기준 변화가 가진 두 얼굴이며, 해당 개발사 내의 세대 발전에 따라 규모가 커지지만 (p < 0.001) 다른 곳에서는 거의 나타나지 않습니다. 최저점(Floor)에서 놓친 결함은 종종 시야 밖에 있는 것이 아닙니다. 모델의 내부 기록은 구조적 결함을 정확하게 재구성하지만, 통합 보고서는 그 건전성을 승인하며, 모델의 관심은 아티팩트 (Artifact)와 부재하는 협업자에게만 쏠려 있습니다. 이는 정량화하기 어렵습니다. 자동화된 판정기 (Automated judge)는 불안정하며 (정밀도 17-50%), 키워드만으로는 이를 일반적인 동의와 분리할 수 없습니다. 우리는 이러한 저항성을 하나의 발견으로 보고합니다. 우리는 모든 실행 결과, 프로브 (Probes), 결함 키 (Defect keys), 점수 산정 프롬프트 (Scorer prompts) 및 스크립트를 공개합니다. 통합 보고서의 신뢰도는 분할을 가로지르는 결함에 대해 유익한 정보를 제공하지 못하며, 가장 잘 정렬된 시스템이 가장 안전한 것도 아니며, 이 절벽은 구조적입니다.

AI 자동 생성 콘텐츠

원문 바로가기

보편적인 절벽과 설계 지문: LLM 오케스트레이션 하에서의 교차 섹션 결함 탐지

요약

핵심 포인트

댓글