본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 16:37

BIT.UA-AAUBS 팀의 ArchEHR-QA 2026 공동 참여: 저자원 QA 환경에서의 오픈소스 및 상용 LLM 평가

요약

BIT.UA와 AAUBS 팀이 저자원 의료 QA 환경인 ArchEHR-QA 2026 공유 과제에 참여하여 LLM 평가를 수행했습니다. 이 연구는 데이터 부족과 엄격한 프라이버시 제약이 있는 의료 분야에서, 가중치 업데이트 없이 다양한 프롬프트 엔지니어링 전략을 사용하여 상용 및 오픈소스 LLM의 성능을 비교 분석합니다. 그 결과, 상용 모델은 전반적인 견고성을 보였으나, 도메인 적응형 오픈소스 모델(예: MedGemma 3 27B)이 최적화된 프롬프트와 결합했을 때 매우 경쟁력 있는 성능을 보여주었으며, 특히 증거 인용 정렬에서 우수한 성과를 거두었습니다.

핵심 포인트

  • 의료 분야 QA는 데이터 부족 및 GDPR 같은 엄격한 프라이버시 제약으로 인해 가중치 업데이트 없이 LLM 평가가 필수적이다.
  • 다양한 프롬프트 엔지니어링 기법(CoT, 작업 분해 등)을 적용하여 상용 모델과 오픈소스 모델의 성능을 체계적으로 비교했다.
  • 상용 LLM은 전반적인 견고성을 보였으나, 도메인 특화 오픈소스 모델이 적절한 프롬프트와 결합할 경우 매우 경쟁력 있는 성능을 발휘한다.
  • 앙상블 기법(다수 투표, LLM-as-a-judge)과 프롬프트 기반 접근 방식의 효과성을 입증하며, 특히 증거 인용 정렬 등 특정 하위 과제에서 높은 순위를 차지했다.

본 논문은 임상 질문 답변 및 증거 기반 (evidence grounding) 을 저자원 환경에서 다루는 ArchEHR-QA 2026 공유 과제에 BIT.UA 와 AAUBS 팀이 공동으로 참여함을 소개합니다. 의료 분야의 특성상 훈련 데이터 부재와 GDPR 등 엄격한 데이터 프라이버시 제약이 존재하므로, 가중치 업데이트 없이 대형 언어 모델 (LLM) 의 능력을 조사합니다. 우리는 다양한 프롬프트 엔지니어링 전략 (작업 분해, Chain-of-Thought, in-context 학습 포함) 을 사용하여 최신 상용 모델과 로컬 배포 가능한 오픈소스 대안을 평가합니다. 또한 예측 강건성을 극대화하기 위해 다수 투표와 LLM-as-a-judge 앙상블 기법을 탐구합니다. 우리의 결과는 상용 모델이 프롬프트 변화에 대해 강한 견고함을 보인 반면, 도메인 적응형 오픈소스 모델 (예: MedGemma 3 27B) 은 적절한 프롬프트와 함께 매우 경쟁력 있는 성능을 달성함을 보여줍니다. 전체적으로, 우리의 프롬프트 기반 접근법은 매우 효과적임을 증명하여 Subtask 4 (증거 인용 정렬) 에서 1 위, Subtask 3 (환자 친화적 답변 생성) 에서 3 위를 차지했습니다. 모든 코드, 결과 및 프롬프트는 GitHub 저장소 (https://github.com/bioinformatics-ua/ArchEHR-QA-2026) 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0