개선을 위한 판단: 단일 이미지 3D 생성을 위한 편향 제거된 VLM-as-3D-Judge 프로토콜
요약
단일 이미지 기반 3D 메쉬 품질을 신뢰성 있게 평가하기 위해 편향을 제거한 VLM-as-3D-Judge 프로토콜을 제안합니다. VLM을 단순 순위 매기기를 넘어 최적화 단계로 활용하여 오픈 생성 모델인 TRELLIS를 특정 자산에 특화하는 실험을 수행했습니다.
핵심 포인트
- VLM judge의 위치 편향 및 이미지 과부하 등 세 가지 주요 실패 모드 해결
- 학습용과 평가용 judge를 분리하여 순환성(circularity) 문제 방지
- 경량 PEFT를 통한 공개 모델의 특정 자산 클래스 특화 가능성 확인
- 단순 미세 조정보다 기하학적 구조를 변화시키는 컨디셔닝 복구가 핵심
동반 연구에서는 저렴한 기하학적(geometry) 지표나 CLIP 프록시(proxies)가 한계를 보이는 단일 이미지 기반 3D 메쉬(mesh) 품질을 신뢰성 있게 순위 매기는, 편향이 제거된 교차 모델 VLM-as-3D-judge를 구축했습니다. 본 논문은 다음과 같은 질문을 던집니다: 해당 judge의 선호도를 활용하여 강력한 오픈 생성 모델인 TRELLIS를 특정 자산 클래스(가구)에 대해 인간의 라벨 없이 저렴하게 특화할 수 있는가? judge를 단순 순위 매기기에서 최적화 단계로 끌어올리는 것이 본 연구의 핵심입니다. VLM judge를 학습 및 평가 루프에 투입하면 순위 매기기 단계에서는 나타나지 않았던 실패 모드(failure modes)가 드러납니다. 따라서 우리의 기여는 judge를 최적화 수준으로 강화하는 것입니다. 구체적으로는 순환성(circularity)을 깨기 위해 학습용 judge(Qwen2.5-VL-7B)와 평가용 judge(InternVL2-8B)를 분리하였고, 위치 편향(position-bias) 교정 및 세 가지 실패 모드(이미지 과부하, 기하학을 숨기는 splat 렌더링, 깨끗하지만 틀린 출력을 보상하는 참조 없는 판단)에 대한 해결책을 제시하였으며, 보정(calibration) 증거(명확한 격차의 승률 0.83-1.0; base-vs-base ~0.5)를 확보했습니다. 이 프로토콜을 독립적인 평가자로 사용하고, 경량화된 매개변수 효율적 적응(parameter-efficient adaptation)을 통해 공개 모델과 데이터만을 활용하여 실험한 결과, 우리의 방법론은 강력한 베이스 모델을 능가하기보다는 그와 일치하는 수준임을 확인했습니다. 독립적인 베이스 샘플은 본질적으로 학습 가능한 선호도를 거의 포함하지 않으므로(0.94의 순위 뒤집힘 비율), 품질 대조적 구성(quality-contrastive construction)을 통해 신호를 설계해야 합니다. 6가지 적응 방법, 2가지 입력 체제, 그리고 심각도 스윕(severity sweep)을 통해 실험한 결과, 가장 타겟팅된 방식인 '심각한 열화 상황에서의 컨디셔너 복구(conditioner repair)'가 베이스 모델과 동등한 수준(0.50)에 도달했으나, 어떤 방법도 65% 이상의 승률 목표를 달성하지는 못했습니다. 결과는 기계론적입니다: 깨끗한 입력은 judge를 포화시키고, flow-DIT 미세 조정(fine-tuning)은 샘플러를 통해 희석되며, 컨디셔닝 복구(conditioning repair)가 기하학적 구조를 변화시키는 핵심 지점(locus)입니다. 승률은 n=8개의 객체에서 방향성을 가집니다. 강력한 공개 데이터 베이스를 저렴한 적응법으로 맞추는 것 자체로도 유의미한 정보를 제공합니다: 이를 능가하기 위해서는 공개 데이터에 대한 경량 PEFT 이상의 것이 필요하며, 이 judge 프로토콜은 재사용이 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기