임상 환경에서 AI의 역할: 공감 능력과 가독성 분석
요약
본 연구는 의료 분야에 적용되는 대규모 언어 모델(LLM)을 다차원적으로 평가했습니다. 일반 및 전문화된 LLM들을 구조화된 의학 설명과 실제 환자-의사 상호작용에 걸쳐 분석하여 의미적 충실도, 가독성, 정서적 공명도를 측정했습니다. 초기 모델들은 의사에 비해 부정적인 감정 표현을 과장하는 경향이 있었고, GPT-5나 Claude 같은 대형 아키텍처는 지나치게 높은 언어 복잡성을 보였습니다. '공감 중심 프롬프팅'은 극단적인 부정성을 줄이고 가독성을 개선했지만, 의미적 충실도를 높이는 데는 한계가 있었습니다. 가장 효과적인 방법은
핵심 포인트
- LLM은 임상 전문가를 대체하기보다 협력적인 커뮤니케이션 강화 도구로 활용되어야 합니다.
- 공감 중심 프롬프팅은 모델의 부정적 감정 표현을 줄이고 가독성을 높이는 데 도움이 됩니다.
- 재작성(Rewriting) 방식이 의미적 유사도와 가독성 측면에서 가장 우수한 전반적인 정렬 성능을 보였습니다.
최근 의료 분야에 LLM 도입이 늘고 있지만, 임상 표준과의 커뮤니케이션 정렬 수준은 아직 충분히 검증되지 않았습니다. 본 연구는 일반 및 전문화된 LLM들을 대상으로 구조화된 의학 설명과 실제 환자-의사 상호작용을 분석하여 의미적 충실도(semantic fidelity), 가독성, 그리고 감정적 공명도를 다각도로 평가했습니다.
초기 모델들은 의사에 비해 지나치게 부정적인 정서 표현을 강화하는 경향이 있었습니다. 또한 GPT-5나 Claude 같은 대형 아키텍처는 원본 대비 매우 높은 언어 복잡성을 나타냈습니다. '공감 중심 프롬프팅'은 이러한 극단적인 부정성을 완화하고 가독성 지수(FKGL)를 낮추는 데 효과적이었으나, 의미적 충실도를 높이는 데는 큰 도움이 되지 못했습니다.
가장 뛰어난 성능을 보인 것은 '협업적 재작성(Collaborative rewriting)' 방식이었습니다. 이 방식은 의사 답변과 높은 의미적 유사도(평균 0.93)를 유지하면서 가독성을 꾸준히 개선하고 감정적 과잉 표현을 줄였습니다.
연구 결과, 전문가 평가에서는 어떤 모델도 실제 의사를 능가하지 못했으며, 환자들은 명확성과 정서적 어조 면에서 재작성된 버전을 선호했습니다. 결론적으로 LLM은 임상 전문 지식의 대체재라기보다는, 커뮤니케이션을 돕는 강력한 협력 도구로 기능하는 것이 가장 효과적입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기