arXiv논문2026. 06. 09. 12:03

USD 장면에서 지식 그래프로: LLM을 이용한 제로샷 온톨로지 그라운딩 (Zero-Shot Ontology Grounding)

요약

3D 시뮬레이션 장면에서 지식 그래프를 구축하기 위해 LLM을 활용한 제로샷 온톨로지 그라운딩 기법을 제안합니다. 수동 큐레이션 방식의 한계를 극복하고, LLM이 씬 그래프의 의미론적 단서를 활용해 높은 정확도로 객체를 온톨로지에 매핑함을 입증했습니다.

핵심 포인트

LLM을 활용한 USD 장면 내 제로샷 온톨로지 그라운딩 자동화
서술형 이름 기준 90-96%의 높은 정확도 달성
문맥 증강 프롬프팅을 통해 불투명한 이름의 매핑 성능 회복
기하학적 정보보다 씬 그래프의 의미론적 단서가 핵심 역할 수행

3D 시뮬레이션 장면으로부터 지식 그래프 (Knowledge Graphs)를 구축하는 것은 로봇 작업 추론 (Robot Task Reasoning)에 필수적이지만, 핵심적인 병목 현상은 장면 객체를 공식적인 온톨로지 (Ontology) 클래스에 그라운딩 (Grounding)하는 과정이며, 이는 여전히 취약하고 자산 전반에 걸쳐 일반화되지 않는 수동으로 큐레이션된 사전 (Dictionaries)에 의존하고 있습니다. 본 연구에서는 대규모 언어 모델 (LLMs)이 Universal Scene Description (USD) 장면에 대해 훈련이 필요 없는 제로샷 (Zero-shot) 대안으로서 이 그라운딩 단계를 자동화할 수 있는지 조사합니다. SOMA-HOME 온톨로지를 사용한 주방 장면 (객체 125개)에서, LLM은 서술형 이름의 경우 90-96%의 정확 일치 (Exact-match) 정확도를, 약어 이름의 경우 49-89%의 정확도를 달성하며, 이는 사전 및 임베딩 (Embedding) 베이스라인을 크게 상회하는 성능입니다. 완전히 불투명한 이름의 경우, 문맥 증강 프롬프팅 (Context-augmented prompting)을 통해 최대 48%를 회복할 수 있습니다. 특징 소거 (Feature ablation) 실험 결과, LLM은 주로 씬 그래프 (Scene graph) 내의 의미론적 단서 (Sibling names 및 Parent paths)를 활용하는 것으로 나타났습니다. 이러한 단서들을 익명화하면 정확도가 0-6%로 감소하는 반면, 기하학적 정보 (Geometry)만으로는 4-17%의 정확도만을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

USD 장면에서 지식 그래프로: LLM을 이용한 제로샷 온톨로지 그라운딩 (Zero-Shot Ontology Grounding)

요약

핵심 포인트

댓글