의료 기록 작성을 위한 8개 LLM 벤치마크 결과: 환각(Hallucinations)은 드물었으나, 누락(Omissions)은 주의가 필요함
요약
의료 기록 작성을 위한 8개 LLM의 성능을 벤치마크한 결과, 환각보다 임상적 세부 사항을 누락하는 현상이 더 빈번하게 발생함을 확인했습니다. 모델 크기와 성능이 반드시 비례하지 않으며, 비용과 품질 사이의 트레이드오프가 존재함을 보여줍니다.
핵심 포인트
- 환각보다 안전 관련 사실의 누락이 훨씬 더 빈번하게 발생함
- GPT-4o-mini는 비용과 속도 면에서 매우 효율적임
- Claude Sonnet과 DeepSeek는 문장 품질이 가장 뛰어남
- Claude Opus는 누락이 가장 적었으나 문장 품질은 상대적으로 낮음
- 저렴한 모델에 안전 계층(safety layer)을 결합하는 방식이 유망함
의료 기록 작성을 위한 LLM(Large Language Models)에 대해 소규모 벤치마크를 수행했습니다.
이유: AI 기록가(AI scribe)의 안전성에 관한 대부분의 논의는 환각(Hallucinations)에 집중되어 있습니다. 이는 중요한 문제이지만, 기록을 검토하면서 또 다른 문제를 발견했습니다. 모델들이 대화에서 임상적으로 중요한 세부 사항을 자주 누락한다는 점입니다.
따라서 300개의 합성 의사-환자 대화(synthetic doctor-patient dialogues)를 바탕으로 8개의 프런티어 모델(frontier models)을 평가했습니다.
각 모델은 모든 대화에 대해 SOAP note를 작성했습니다. 그 후 4개의 모델로 구성된 심사 패널(judge panel)을 사용하여 다음 항목에 대해 기록을 점수화했습니다:
문장 품질 (prose quality)
환각 (hallucinations)
누락된 안전 관련 사실 (left-out safety facts)
비용 (cost)
속도 (speed)
주요 결과:
생성된 2,400개의 기록 전체에서 모델들은 다음과 같은 결과를 보였습니다:
12건의 확인된 고영향 환각 (high-impact hallucinations)
520건의 누락된 안전 관련 사실 (left-out safety facts)
따라서 이번 벤치마크에서는 환각보다 누락이 훨씬 더 빈번하게 발생했습니다.
기타 눈에 띄는 사항:
GPT-4o-mini(원문 GPT-5.4-mini 오기 추정)는 비용과 속도 측면에서 매우 뛰어난 성능을 보였습니다.
Claude Sonnet과 DeepSeek는 문장 품질(prose quality) 면에서 가장 강력했습니다.
DeepSeek는 저렴하고 글을 잘 썼지만, 많은 안전 관련 사실을 놓쳤습니다.
모델이 크다고 해서 반드시 더 나은 것은 아니었습니다. Claude Opus는 누락이 가장 적었지만, 문장 품질 면에서는 더 좋지 않았습니다.
Kimi는 확인된 환각이 0건이었으나, 이 설정에서는 속도가 느리고 비용이 많이 들었습니다.
리포지토리(repo)에는 대화 스크립트, 출력물, 점수 산정 스크립트 및 리더보드(leaderboard)가 포함되어 있습니다 (링크는 댓글 참조).
다음으로 제가 관심을 두고 있는 것은 로컬(locally)에서 실행 가능한 모델들에 대해 동일한 평가를 수행하는 것입니다.
이와 별개로, 저희는 제품 개발을 위해 내부적으로 이 벤치마크를 사용했습니다. 당연한 후속 연구 과제는 다음과 같았습니다: 만약 저렴한/오픈 모델이 글은 잘 쓰지만 안전 관련 사실을 놓친다면, 전사(transcript)에 기반한 래퍼(wrapper)가 이러한 누락을 복구하고 근거 없는 주장에 플래그를 표시할 수 있을까?
그 방향은 유망해 보입니다. 특히, 이는 DeepSeek와 같은 모델을 훨씬 더 흥미롭게 만듭니다. 강력한 문장 품질, 낮은 비용을 갖추고 있으며, 안전 계층(safety layer)과 결합될 경우 더 안전한 임상 기록 파이프라인에서 사용될 잠재력이 있습니다.
이전 평가(V1) 게시물은 여기에서 확인할 수 있습니다.
submitted by /u/MajesticAd2862
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기