1.2M(120만) 장의 방사선 사진으로 학습된 1.3B(13억) 파라미터 규모의 rectified flow transformer가 임상 전문가

요약

1.2M 장의 방사선 사진으로 학습된 1.3B 파라미터 규모의 RadiT XL 모델이 발표되었습니다. 이 모델은 임상 전문가조차 실제와 구분하기 어려울 정도로 정교한 흉부 방사선 사진을 생성하며, 다양한 병리학적 상태를 제어할 수 있습니다.

핵심 포인트

1.3B 파라미터 규모의 RadiT XL 생성 파운데이션 모델 공개
120만 장의 CXR7-1M 데이터셋과 1.6조 토큰으로 학습
임상 전문가가 실제와 합성 이미지를 구분하기 어려운 수준의 사실성 확보
12가지 병리학적 상태 및 인구통계학적 특성에 대한 제어 가능한 생성 지원

1.2M(120만) 장의 방사선 사진으로 학습된 1.3B(13억) 파라미터 규모의 rectified flow transformer가 임상 전문가조차 실제와 구분할 수 없는 흉부 방사선 사진을 생성합니다.

1.3B 파라미터의 rectified flow transformer인 RadiT XL은 임상 전문가가 실제 사진과 구분할 수 없는 흉부 방사선 사진을 생성합니다. 1.2M 장의 방사선 사진과 1.6T(1.6조) 토큰으로 학습된 이 모델은 실제 대 합성 데이터 판별 테스트에서 거의 무작위 확률(near-chance accuracy)에 가까운 정확도를 기록했습니다.

주요 사실

RadiT XL rectified flow transformer의 파라미터 수는 13억 개.
CXR7-1M 학습 데이터셋에 120만 장의 흉부 방사선 사진 포함.
학습 과정에서 1.6조 개의 토큰 처리.
실제 대 합성 데이터 판별 테스트에서 임상 전문가의 정확도가 거의 무작위 확률 수준.
12가지 병리학적 상태(pathologies)에 대해 제어 가능한 생성 지원.

Fabio De Sousa Ribeiro, Emma A. M. Stanley, Charles Jones를 포함한 여러 기관의 연구진은 흉부 방사선 사진을 위한 최대 규모의 전문 생성 파운데이션 모델(generative foundation model)을 소개하는 논문을 2026년 6월 17일 arXiv에 발표했습니다. RadiT XL이라는 이름의 이 모델은 13억 개 이상의 파라미터를 가진 rectified flow transformer 아키텍처를 사용합니다. 이 모델은 7개의 기존 데이터셋을 통합하고 방사선 전문의가 가이드한 메타데이터로 증강된 120만 장의 방사선 사진으로 구성된 CXR7-1M이라는 정제된 이질적 데이터셋을 통해 처음부터(from scratch) 학습되었습니다.

논문은 이 모델이 10억 파라미터 규모에서 흉부 방사선 합성을 위한 최초의 생성 파운데이션 모델이라고 주장합니다. 핵심 아키텍처 구성 요소에는 RadiT(rectified flow transformer)와 Rad-DINO 지각 손실(perceptual loss)로 학습된 VAE인 Rad-VAE가 포함됩니다. 이 모델은 다양한 인구통계학적 하위 그룹, 촬영 뷰(acquisition views), 그리고 12가지 병리학적 상태에 대해 제어 가능한 생성 및 편집을 지원합니다.

임상적 구별 불가능성

실제 이미지 대 합성 이미지 (real-vs-synthetic) 평가에서, 임상 전문가들은 두 가지 제시 방식 모두에서 무작위 확률에 가까운 정확도를 보였으며, 평가자 내 및 평가자 간 Cohen's κ (Cohen's Kappa) 값이 낮게 나타났습니다. 이는 합성 이미지의 사실성 (realism)이 매우 높음을 나타냅니다. 논문은 이 모델이 "임상 전문가가 실제 방사선 사진과 구분할 수 없는 이미지를 생성한다"고 명시하고 있습니다. 이는 방사선 합성 충실도 (radiographic synthesis fidelity) 측면에서 상당한 진전을 의미하지만, 논문에서 정확한 정확도 백분율이나 FID 점수를 공개하지는 않았습니다.

독자적인 관점: 범용성보다 전문화 (Specialization Over Generality)

Meta나 OpenAI의 모델과 같은 범용 도메인 이미지 생성 모델들이 빠르게 발전하고 있지만, 본 연구는 흉부 방사선 사진에만 전적으로 집중하여 10억 개 이상의 파라미터를 가진 모델을 학습시키는 도메인 특화 스케일링 (domain-specific scaling)이 범용 모델이 따라올 수 없는 전문가 수준의 성능을 낼 수 있음을 보여줍니다. 인구통계학적 하위 그룹 및 특정 병리학적 상태를 조건화 (condition) 할 수 있는 모델의 능력은, 의료 AI의 오랜 병목 현상인 하위 진단 모델 학습을 위한 임상 데이터셋의 다양화로 가는 경로를 제시합니다. 논문은 기존의 방사선 AI 모델들이 "환자 하위 집단, 기관 및 촬영 설정 전반에 걸쳐 일반화 (generalisation) 성능이 떨어지는 경우가 많다"고 명시적으로 언급합니다. 제어 가능하고 충실도가 높은 합성 데이터를 생성함으로써, RadiT XL은 더욱 강력한 진단 모델 평가 및 학습을 가능하게 할 수 있습니다.

논문은 모델 가중치(weights)나 CXR7-1M 데이터셋을 공개하지 않아 재현성 (reproducibility)에 한계가 있습니다. 또한 저자들은 파라미터 및 토큰 수를 제외하고는 컴퓨팅 비용, 학습 시간 또는 하이퍼파라미터 (hyperparameter) 세부 사항을 보고하지 않았습니다.

주목할 점

Step-by-Step Illustrated Explanations of Transformer | by Yule Wang ...

RadiT 모델 가중치(weights)나 CXR7-1M 데이터셋이 오픈 소스로 공개되는지 주시하십시오. 만약 공개된다면, 하위 진단 모델의 강건성(robustness) 연구가 물결처럼 이어질 것으로 예상됩니다. 또한 FID 점수 공개와 의료 데이터로 미세 조정(fine-tuned)된 Stable Diffusion과 같은 일반 도메인 생성 모델(generative models)과의 비교 결과도 추적하십시오.

Figure 8: Rectified flow transformer architectures.<br>
(a) Latent-space rectified flow models operate on Rad-VAE latent tok

출처: arxiv.org

원문 게시지: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기

1.2M(120만) 장의 방사선 사진으로 학습된 1.3B(13억) 파라미터 규모의 rectified flow transformer가 임상 전문가

요약

핵심 포인트

임상적 구별 불가능성

독자적인 관점: 범용성보다 전문화 (Specialization Over Generality)

주목할 점

댓글