arXiv논문2026. 05. 06. 13:16

시각 언어 모델 (VLM) 을 활용한 인간 시각 노출계 (visual exposome) 의 정량화

요약

본 연구는 기존 방법론이 포착하지 못했던 일상생활의 1인칭 시각적 맥락을 파악하기 위해 생태학적 순간 평가(EMA)와 시각 언어 모델(VLM)을 결합했습니다. 이를 통해 참가자들이 생성한 사진에서 녹지 추정치를 추출하여, 이것이 순간적인 감정과 만성 스트레스에 유의미하게 영향을 미치는 것을 입증했습니다. 나아가 대규모 LLM 기반 파이프라인을 개발하여 실제 이미지에서 정신 건강과 관련된 환경적 특징을 객관적으로 정량화할 수 있는 '시각 노출계(visual exposomics)' 패러다임을 제시했습니다.

핵심 포인트

VLM과 EMA를 결합하여 인간의 1인칭 시각 경험의 의미론적 풍부함을 정량화하는 새로운 방법을 개발했습니다.
사진에서 추출된 녹지(greenness) 추정치가 순간 감정과 만성 스트레스와 강한 상관관계를 보였습니다.
700만 개 이상의 논문을 파싱하는 LLM 기반 파이프라인을 구축하여, 정신 건강과 관련된 환경적 특징 약 1000개를 추출했습니다.
VLM에서 추출된 맥락 평가가 실제 이미지의 감정 및 스트레스와 최대 33%까지 유의미한 상관관계를 가질 수 있음을 입증했습니다.

시각 환경은 정신 건강에 있어 기본적이면서도 정량화되지 않은 결정 요인입니다. 환경 노출계 (environmental exposome) 개념은 잘 확립되었으나, 현재 방법론은 거친 지리 공간적 대용 (geospatial proxies) 또는 편향된 자전 보고 (biased self reports) 를 의존하여 일상생활의 1 인칭 시각적 맥락 (first person visual context) 을 포착하지 못합니다. 우리는 생태학적 순간 평가 (ecological momentary assessment) 와 시각 언어 모델 (VLMs) 을 결합함으로써 인간 시각 경험의 의미적 풍부함 (semantic richness) 을 정량화하는 이 공백을 해소했습니다. 2674 개의 참가자 생성 사진에 걸쳐, VLM 에서 도출된 녹지 (greenness) 추정치는 기존 벤치마크와 일치하여 순간적 감정 (momentary affect) 과 만성 스트레스 (chronic stress) 를 강하게 예측했습니다. 우리는 이후 정신 건강과 경험적으로 연결된 거의 1000 개의 환경적 특징을 추출하기 위해 과학 논문 700 만 개 이상을 파싱하는 반자율형 대형 언어 모델 (LLM) 기반 파이프라인을 개발했습니다. 실제 세계 이미지 (real world imagery) 에 적용했을 때, VLM 에서 추출한 맥락 평가 (context ratings) 의 최대 33% 가 감정과 스트레스와 유의미하게 상관관계가 있었습니다. 이러한 발견은 시각 노출계 (visual exposomics) 를 위한 확장 가능한 객관적 패러다임을 확립하여, 가시 세계가 정신 건강과 어떻게 연관되는지를 고처리량으로 해석할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각 언어 모델 (VLM) 을 활용한 인간 시각 노출계 (visual exposome) 의 정량화

요약

핵심 포인트

댓글