arXiv논문2026. 05. 06. 16:37

BIT.UA-AAUBS 팀의 ArchEHR-QA 2026 공동 참여: 저자원 QA 환경에서의 오픈소스 및 상용 LLM 평가

요약

BIT.UA와 AAUBS 팀이 저자원 의료 QA 환경인 ArchEHR-QA 2026 공유 과제에 참여하여 LLM 평가를 수행했습니다. 이 연구는 데이터 부족과 엄격한 프라이버시 제약이 있는 의료 분야에서, 가중치 업데이트 없이 다양한 프롬프트 엔지니어링 전략을 사용하여 상용 및 오픈소스 LLM의 성능을 비교 분석합니다. 그 결과, 상용 모델은 전반적인 견고성을 보였으나, 도메인 적응형 오픈소스 모델(예: MedGemma 3 27B)이 최적화된 프롬프트와 결합했을 때 매우 경쟁력 있는 성능을 보여주었으며, 특히 증거 인용 정렬에서 우수한 성과를 거두었습니다.

핵심 포인트

의료 분야 QA는 데이터 부족 및 GDPR 같은 엄격한 프라이버시 제약으로 인해 가중치 업데이트 없이 LLM 평가가 필수적이다.
다양한 프롬프트 엔지니어링 기법(CoT, 작업 분해 등)을 적용하여 상용 모델과 오픈소스 모델의 성능을 체계적으로 비교했다.
상용 LLM은 전반적인 견고성을 보였으나, 도메인 특화 오픈소스 모델이 적절한 프롬프트와 결합할 경우 매우 경쟁력 있는 성능을 발휘한다.
앙상블 기법(다수 투표, LLM-as-a-judge)과 프롬프트 기반 접근 방식의 효과성을 입증하며, 특히 증거 인용 정렬 등 특정 하위 과제에서 높은 순위를 차지했다.

본 논문은 임상 질문 답변 및 증거 기반 (evidence grounding) 을 저자원 환경에서 다루는 ArchEHR-QA 2026 공유 과제에 BIT.UA 와 AAUBS 팀이 공동으로 참여함을 소개합니다. 의료 분야의 특성상 훈련 데이터 부재와 GDPR 등 엄격한 데이터 프라이버시 제약이 존재하므로, 가중치 업데이트 없이 대형 언어 모델 (LLM) 의 능력을 조사합니다. 우리는 다양한 프롬프트 엔지니어링 전략 (작업 분해, Chain-of-Thought, in-context 학습 포함) 을 사용하여 최신 상용 모델과 로컬 배포 가능한 오픈소스 대안을 평가합니다. 또한 예측 강건성을 극대화하기 위해 다수 투표와 LLM-as-a-judge 앙상블 기법을 탐구합니다. 우리의 결과는 상용 모델이 프롬프트 변화에 대해 강한 견고함을 보인 반면, 도메인 적응형 오픈소스 모델 (예: MedGemma 3 27B) 은 적절한 프롬프트와 함께 매우 경쟁력 있는 성능을 달성함을 보여줍니다. 전체적으로, 우리의 프롬프트 기반 접근법은 매우 효과적임을 증명하여 Subtask 4 (증거 인용 정렬) 에서 1 위, Subtask 3 (환자 친화적 답변 생성) 에서 3 위를 차지했습니다. 모든 코드, 결과 및 프롬프트는 GitHub 저장소 (https://github.com/bioinformatics-ua/ArchEHR-QA-2026) 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

BIT.UA-AAUBS 팀의 ArchEHR-QA 2026 공동 참여: 저자원 QA 환경에서의 오픈소스 및 상용 LLM 평가

요약

핵심 포인트

댓글