arXiv논문2026. 04. 28. 02:11

계층적 주행 VQA에서의 교차 단계 일관성: 명시적 베이스라인과 학습된 게이트드 컨텍스트 프로젝터

요약

본 논문은 자율주행 그래프 시각 질문 답변(GVQA)에서 인지-예측-계획 단계 간의 컨텍스트 일관성을 확보하는 두 가지 상보적인 방법을 비교 연구합니다. 첫 번째 방법인 명시적 베이스라인은 추가 학습 없이 프롬프트 기반 조건화 전략을 사용하여 NLI 모순을 크게 줄이는 강력한 무학습 성능을 보여줍니다. 두 번째 방법인 게이트드 컨텍스트 프로젝터는 숨겨진 상태 벡터를 다음 단계 입력에 정규화된 방식으로 주입하여 계획 단계의 의미적 일관성을 통계적으로 유의미하게 개선합니다.

핵심 포인트

자율주행 GVQA에서 인지-예측-계획 단계 간 컨텍스트 전달이 중요하며, 모델은 이 과정에서 높은 수준의 일관성을 유지해야 한다.
명시적 조건화 전략(프롬프트 기반)은 추가 학습 없이도 NLI 모순을 줄이는 강력한 무학습 베이스라인을 제공한다.
게이트드 컨텍스트 프로젝터는 단계별 숨겨진 상태를 추출하고 다음 단계에 정규화하여 주입함으로써 계획의 의미적 일관성을 크게 향상시킨다.
두 방법은 상보적이며, 명시적 방식이 표면적 일관성에 강점을 보인다면, 게이트드 프로젝션은 깊은 의미적 개선을 제공한다.

자율주행용 그래프 시각 질문 답변 (GVQA) 은 추론을 인지 (Perception), 예측 (Prediction), 계획 (Planning) 순서로 나열된 단계로 조직화하며, 계획 결정은 모델의 자체 인지와 일관되어야 합니다. 우리는 DriveLM-nuScenes 에서 두 가지 상보적 메커니즘을 통해 교차 단계 컨텍스트 전달에 대한 비교 연구를 제시합니다. 명시적 변형은 추가 학습 없이 도메인 적응된 4B VLM (Mini-InternVL2-4B-DA-DriveLM) 에서 프롬프트 기반 조건화 전략 세 가지를 평가하여 NLI 모순을 최대 42.6% 줄이고 강력한 무학습 베이스라인을 확립합니다. 암묵적 변형은 한 단계에서 숨겨진 상태 벡터를 추출하고 다음 단계의 입력 임베딩에 정규화된 게이트드 프로젝션을 주입하는 게이트드 컨텍스트 프로젝터를 도입합니다. 이러한 프로젝터는 일반적인 목적 8B VLM (InternVL3-8B-Instruct) 에서 단계별 QLoRA 어댑터와 함께 공동으로 학습되지만 약 0.5% 의 파라미터만 업데이트됩니다. 암묵적 변형은 다국어 NLI 분류기를 사용하여 혼합 언어 출력을 고려할 때 계획 단계의 NLI 모순을 통계적으로 유의미하게 34% 줄이고 (bootstrap 95% CIs, p < 0.05) 교차 단계 함축성을 50% 증가시킵니다. 계획 언어 품질도 개선되지만 (CIDEr +30.3%), 주행 도메인 사전 학습의 부재로 인해 어휘 중복과 구조적 일관성은 저하됩니다. 두 변형이 다른 베이스 모델을 사용하기 때문에 우리는 이를 상보적인 사례 연구로 제시합니다: 명시적 컨텍스트 전달은 표면적 일관성을 위한 강력한 무학습 베이스라인을 제공하고, 암묵적 게이트드 프로젝션은 계획 단계의 의미적 이점을 크게 제공하여 전 스펙트럼 개선을 위한 다음 구성 요소로서 도메인 적응이 타당함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

계층적 주행 VQA에서의 교차 단계 일관성: 명시적 베이스라인과 학습된 게이트드 컨텍스트 프로젝터

요약

핵심 포인트

댓글