Qiita헤드라인2026. 05. 18. 20:02

의료 LLM의 최신 동향 (2026년 5월 기준)

요약

의료 LLM은 범용 LLM을 베이스로 의료 도메인 코퍼스를 활용한 추가 학습(Continual Pre-training, Fine-tuning 등)을 통해 개발됩니다. Google의 비공개 멀티모달 모델부터 OpenMeditron, FreedomIntelligence의 중국어 특화 모델, 일본의 LLM-JP 기반 모델까지 다양한 도메인 특화 모델들이 개발되고 있습니다.

핵심 포인트

의료 LLM은 밑바닥부터 학습하기보다 사전 학습된 범용 모델을 기반으로 추가 학습을 진행하는 것이 효율적임
Google은 텍esting MedQA에서 91%를 기록한 비공개 의료 멀티모달 모델을 보유하고 있음
OpenMeditron 및 FreedomIntelligence(Huatuo)와 같은 오픈 모델 기반의 도메인 특화 연구가 활발함
언어 및 지역적 특성을 반영한 English-centric, Chinese-centric, 일본 국산 모델 등 다양한 지역 특화 모델이 존재함

※이 기사는 2026/5/18 시점의 정보에 기반하여 작성되었습니다.

LLM (Large Language Model, 대규모 언어 모델)은 기본적으로 Transformer 아키텍처 (Architecture)를 기반으로 하며, 인터넷 등에서 수집한 대량의 코퍼스 (Corpus)를 학습 데이터로 사용하여 Next word prediction (다음 단어를 예측하는 태스크에서의 우도 최대화)을 통해 학습됩니다. 학습 데이터에는 온갖 문장이 포함되며, 이것이 기반 모델 (Foundation Model)로 이용됩니다.

GPT나 Gemini 등 빅테크 (Big Tech) 기업들이 중심적으로 개발하고 있는 LLM은 '무엇이든 해낼 수 있는' 범용적인 LLM을 목표로 하는 경우가 많습니다.

이를 위해서는 방대한 학습 데이터 및 모델 사이즈 (Model Size)가 필요합니다.

한편, 도메인 특화 (Domain-specific)라고 불리는 개발 방향성도 존재합니다. 이는 특정 유스케이스 (Use case)나 태스크 (Task)를 상정하고, 그 영역에서 높은 능력을 발휘할 수 있는 LLM 개발을 목표로 한다는 의미입니다. '도메인'에 해당하는 것은 다양하게 생각할 수 있으나, 특히 의료, 금융, 법률 등이 대표적인 영역 예시입니다. 하지만 업계적인 의미의 도메인 외에도, 예를 들어 '일본어', '일본풍' 등도 도메인 특화의 한 예로 간주되기도 합니다.

의료 LLM은 원칙적으로 사전 학습된 (Pre-trained) 범용 LLM을 베이스로 하며, 이에 대해 의료 도메인 코퍼스로 추가 학습 (지속 사전 학습 (Continual Pre-training), 파인튜닝 (Fine-tuning), 강화학습 (RL) 등)을 실시하여 개발됩니다. 여기에는 스크래치 (Scratch)부터 0에서 LLM을 사전 학습하는 것이 어느 기관에게나 너무 힘들다는 이유와, 베이스 능력이 존재하는 편이 도메인 특화 능력을 획득하기 쉽다고 여겨지기 때문이라는 이유가 있습니다. 도메인 특화에서는 독자적인 추가 학습 등이 필요하지만, 비공개 모델은 해당 조직만이 착수할 수 있기 때문에 공개된 오픈 모델 (Open Model)을 이용한 연구 개발도 활발히 이루어지고 있습니다.

Google이 발표한 의료 멀티모달 (Multimodal) 모델입니다. 텍스트 처리뿐만 아니라 의료 분야의 많은 도메인 데이터에 대응하고 있습니다. 모델은 비공개입니다. 미국의 의사 국가시험에 해당하는 벤치마크 (Benchmark) MedQA에서 91%를 달성했습니다. 자세한 내용은 Google의 블로그에 공개되어 있습니다.

Google 팀으로부터는 그 외에도:

스위스의 EPFL이 중심으로 개발하고 있는 English-centric한 오픈 의료 LLM입니다.

최근에는 OpenMeditron이라는 형태로 소규모 모델 개발이 가속화되고 있습니다.

초기의 Meditron (70B 모델)은 MedQA에서 70% 가까운 정답률을 달성했습니다.

홍콩 중문대학교의 Wang Benyou가 이끄는 FreedomIntelligence가 개발하고 있는 Chinese-centric한 오픈 의료 LLM입니다.

70B 모델에서는 MedQA에서도 83%를 달성했습니다. 8B 모델에서도 MedQA에서 72%를 달성했습니다.

Huatuo 이외의 중국제 모델 중에는 Baichuan이라는 곳이 기세가 좋아 보입니다.

2024년에 창업된 스타트업으로 의료 LLM 개발을 수행하고 있는 것으로 보입니다.

이 모델은 Huggingface Spaces 상에서 데모를 사용할 수 있습니다.

SIP 중에서 국산인 LLM-JP를 베이스 모델로 한 의학 특화 LLM이 개발되고 있습니다. 학습된 모델은 아래 페이지에서 공개되어 있습니다.

아마도 이 노력이 일본 국내로 한정했을 때의 의료 LLM 이니셔티브 (Initiative)라고 생각됩니다. LLM-JP가 완전한 국산을 표방하고 있으며, 또한 최신 LLM-JP-4는 성능 평판도 좋아 보인다는 점(단, 의료 파인튜닝은 미실시)도 큽니다.

(주) EQUES의 GENIAC 사업으로 개발된 제약 도메인 특화 LLM입니다.

모델 사이즈는 7B로 현장에서도 구현하기 쉬운 경량 모델입니다.

도메인은 의료와는 조금 벗어나 있지만, 의사 국가시험 벤치마크 스코어에서는 동일 사이즈의 모델을 상회하여 65%를 달성했습니다.

관련 논문이 IJCNLP-AACL2025라는 국제 회의에 채택되었습니다. [주1]

미국의 의료 종사자를 위해 ChatGPT for Clinicians가 발표되었습니다.

Google Deepmind에서도 AI Co-clinician 기사가 공개되었습니다.

또한, 아무래도 영어로 기술 개발이 선행되는 세계 속에서, 리소스 (Resource)가 적은 언어라도 성능을 높이려면 어떻게 해야 하는가에 대한 연구도 있습니다. 영어의 높은 추론 (Reasoning) 성능을 활용하는 형태로, 7개 언어를 수록한 MultiMed-X라는 벤치마크에서 평균 5%의 성능 개선(특히 저리소스 언어에서의 개선이 현저함)을 보고하고 있습니다.

※ 필자는 상기 [주1]에서 소개한 논문의 저자에 포함되어 있습니다.

※ 보다 상세한 내용에 관심이 있으신 분은 아래의 정리 자료(내용은 수시로 업데이트 중)도 꼭 확인해 주시기 바랍니다.

JMedData4LLM: 의료 LLM (Large Language Model) 연구에 유용한 데이터셋 링크를 모아두었습니다.
awesome-latest-LLM: 베이스 모델 (Base Model) 및 의료 모델에 관한 최신 정보를 나열하고 있습니다.
SpeakerDeck 「의료 분야에 특화된 LLM 연구 소개」: 슬라이드를 통한 최근 논문 소개입니다.

AI 자동 생성 콘텐츠

원문 바로가기

의료 LLM의 최신 동향 (2026년 5월 기준)

요약

핵심 포인트

댓글