BrainJanus: 뇌, 시각 및 언어를 아우르는 이해와 생성을 위한 통합 모델
요약
BrainJanus는 뇌, 시각, 언어를 하나의 프레임워크로 통합한 최초의 범용 뇌 모델입니다. 통합 뇌 토크나이저와 자기회귀 아키텍처를 통해 뇌 신호의 인코딩과 디코딩을 아우르는 any-to-any 생성을 구현했습니다.
핵심 포인트
- 뇌, 시각, 언어를 통합한 단일 옴니 공간(Omni space) 제안
- 연속적 신경 역학을 이산 토큰으로 양자화하는 통합 토크나이저 도입
- 이미지/텍스트-to-뇌 및 뇌-to-이미지/텍스트의 양방향 생성 가능
- 제로샷 일반화 능력 및 해석 가능한 생물학적 지형 보존 확인
외부 감각 자극(external sensory stimuli)과 내부 신경 활동(internal neural activity) 사이의 양방향 대응 관계를 모델링하는 것은 신경과학(neuroscience)의 중요한 최전선으로 부상했습니다. 그러나 기존의 접근 방식은 뇌의 다중 모달 통합 시스템(multimodal integration system)으로서의 본질적인 특성을 간과한 채, 단일 모달 정렬(unimodal alignment)과 외부 사전 정보(external priors)에 크게 의존하며 뇌 인코딩(brain encoding)과 디코딩(decoding)을 분리된 작업으로 취급하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 뇌, 시각, 언어를 단일 프레임워크 내에 통합하는 최초의 통합 뇌 모델인 BrainJanus를 제안합니다. 구체적으로, 우리는 연속적인 신경 역학(continuous neural dynamics)을 공유된 옴니 공간(Omni space) 내의 시각 및 언어 표현과 정렬된 이산 토큰(discrete tokens)으로 양자화하기 위한 통합 뇌 토크나이저(Unified Brain Tokenizer)를 도입합니다. 이를 바탕으로, 우리는 다음 토큰 예측(next-token prediction)을 활용하여 이미지-to-뇌(image-to-brain) 및 텍스트-to-뇌(text-to-brain) 인코딩과 뇌-to-이미지(brain-to-image) 및 뇌-to-텍스트(brain-to-text) 디코딩을 포함하는 원활한 any-to-any 생성을 가능하게 하는 올인원 자기회귀 아키텍처(All-in-One autoregressive architecture)를 사용합니다. 광범위한 실험을 통해 BrainJanus가 다양한 벤치마크에서 우수한 성능을 달성함을 입증했습니다. 또한, 우리의 프레임워크는 제로샷 일반화(zero-shot generalization) 능력을 보여주며 해석 가능한 생물학적 지형(interpretable biological topography)을 보존하여, 범용 뇌 모델링 패러다임으로서의 잠재력을 강조합니다. 코드는
ef{https://github.com/HaitaoWuTJU/BrainJanus}{GitHub}에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기