r/LocalLLaMA분석2026. 06. 24. 04:18

의료 기록 작성을 위한 8개 LLM 벤치마크 결과: 환각(Hallucinations)은 드물었으나, 누락(Omissions)은 주의가 필요함

요약

의료 기록 작성을 위한 8개 LLM의 성능을 벤치마크한 결과, 환각보다 임상적 세부 사항을 누락하는 현상이 더 빈번하게 발생함을 확인했습니다. 모델 크기와 성능이 반드시 비례하지 않으며, 비용과 품질 사이의 트레이드오프가 존재함을 보여줍니다.

핵심 포인트

환각보다 안전 관련 사실의 누락이 훨씬 더 빈번하게 발생함
GPT-4o-mini는 비용과 속도 면에서 매우 효율적임
Claude Sonnet과 DeepSeek는 문장 품질이 가장 뛰어남
Claude Opus는 누락이 가장 적었으나 문장 품질은 상대적으로 낮음
저렴한 모델에 안전 계층(safety layer)을 결합하는 방식이 유망함

의료 기록 작성을 위한 LLM(Large Language Models)에 대해 소규모 벤치마크를 수행했습니다.

이유: AI 기록가(AI scribe)의 안전성에 관한 대부분의 논의는 환각(Hallucinations)에 집중되어 있습니다. 이는 중요한 문제이지만, 기록을 검토하면서 또 다른 문제를 발견했습니다. 모델들이 대화에서 임상적으로 중요한 세부 사항을 자주 누락한다는 점입니다.

따라서 300개의 합성 의사-환자 대화(synthetic doctor-patient dialogues)를 바탕으로 8개의 프런티어 모델(frontier models)을 평가했습니다.
각 모델은 모든 대화에 대해 SOAP note를 작성했습니다. 그 후 4개의 모델로 구성된 심사 패널(judge panel)을 사용하여 다음 항목에 대해 기록을 점수화했습니다:

문장 품질 (prose quality)
환각 (hallucinations)
누락된 안전 관련 사실 (left-out safety facts)
비용 (cost)
속도 (speed)

주요 결과:
생성된 2,400개의 기록 전체에서 모델들은 다음과 같은 결과를 보였습니다:

12건의 확인된 고영향 환각 (high-impact hallucinations)
520건의 누락된 안전 관련 사실 (left-out safety facts)

따라서 이번 벤치마크에서는 환각보다 누락이 훨씬 더 빈번하게 발생했습니다.

기타 눈에 띄는 사항:

GPT-4o-mini(원문 GPT-5.4-mini 오기 추정)는 비용과 속도 측면에서 매우 뛰어난 성능을 보였습니다.
Claude Sonnet과 DeepSeek는 문장 품질(prose quality) 면에서 가장 강력했습니다.
DeepSeek는 저렴하고 글을 잘 썼지만, 많은 안전 관련 사실을 놓쳤습니다.
모델이 크다고 해서 반드시 더 나은 것은 아니었습니다. Claude Opus는 누락이 가장 적었지만, 문장 품질 면에서는 더 좋지 않았습니다.
Kimi는 확인된 환각이 0건이었으나, 이 설정에서는 속도가 느리고 비용이 많이 들었습니다.

리포지토리(repo)에는 대화 스크립트, 출력물, 점수 산정 스크립트 및 리더보드(leaderboard)가 포함되어 있습니다 (링크는 댓글 참조).
다음으로 제가 관심을 두고 있는 것은 로컬(locally)에서 실행 가능한 모델들에 대해 동일한 평가를 수행하는 것입니다.
이와 별개로, 저희는 제품 개발을 위해 내부적으로 이 벤치마크를 사용했습니다. 당연한 후속 연구 과제는 다음과 같았습니다: 만약 저렴한/오픈 모델이 글은 잘 쓰지만 안전 관련 사실을 놓친다면, 전사(transcript)에 기반한 래퍼(wrapper)가 이러한 누락을 복구하고 근거 없는 주장에 플래그를 표시할 수 있을까?
그 방향은 유망해 보입니다. 특히, 이는 DeepSeek와 같은 모델을 훨씬 더 흥미롭게 만듭니다. 강력한 문장 품질, 낮은 비용을 갖추고 있으며, 안전 계층(safety layer)과 결합될 경우 더 안전한 임상 기록 파이프라인에서 사용될 잠재력이 있습니다.
이전 평가(V1) 게시물은 여기에서 확인할 수 있습니다.
submitted by /u/MajesticAd2862
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기