arXiv논문2026. 06. 08. 11:21

REMEDI: 다중 레이블 임상 질병 추론에서의 망각 및 유지 평가를 위한 벤치마크

요약

의료 분야의 다중 레이블 임상 질병 추론을 위한 머신 언러닝 벤치마크인 REMEDI를 제안합니다. 기존 벤치마크가 실제 의료 환경을 반영하지 못하는 한계를 극복하기 위해 MIMIC-III 데이터를 활용하여 설계되었습니다.

핵심 포인트

의료 데이터의 개인정보 보호를 위한 머신 언러닝의 중요성 강조
다중 레이블 및 다중 클래스 분류 시나리오를 포함한 맞춤형 벤치마크
MIMIC-III 데이터베이스를 활용한 실제 임상 환경 반영
언러닝 성능과 모델 유용성 사이의 트레이드오프 확인

임상 질병 추론 (Clinical disease inference)을 위해 학습된 언어 모델 (Language models)은 환자 데이터를 기반으로 학습되며, 여기에는 민감하고 개인적인 정보가 포함될 수 있습니다. 데이터 소유자는 개인정보 보호 또는 저작권 문제로 인해 학습된 모델에서 자신의 데이터를 삭제해 달라고 요청할 수 있습니다. 그러나 환자 특정 데이터를 정확하게 망각 (Unlearning)하는 것은 다루기 매우 어려우며, 소량의 데이터를 제거하고 모델을 재학습 (Retraining)하는 것은 자원 집약적입니다. 사용할 수 있는 여러 머신 언러닝 (Machine unlearning) 방법들이 존재하지만, 이들의 유용성은 일반적으로 비의료 분야에 국한되어 있습니다. 더욱이, 이러한 언러닝 방법을 평가하기 위한 기존의 벤치마크 (Benchmarks)들은 주로 합성된 데이터셋 (Synthetically curated datasets)을 활용하며, 이는 실제 세계의 시스템을 진정으로 대표하지 못합니다. 따라서 의료 분야에서 이러한 언러닝 방법들의 효과는 상당히 불분명합니다. 이를 위해, 우리는 레이블 상관관계 (Label correlations), 종단적 구조 (Longitudinal structure), 그리고 안전 제약 조건 (Safety constraints)으로 인해 언러닝이 특히 까다로운 다중 레이블 (Multi-label) 및 다중 클래스 (Multiclass) 임상 질병 추론에 맞춤화된 광범위한 머신 언러닝 벤치마크인 REMEDI를 소개합니다. 기존 벤치마크와 달리, REMEDI는 다음을 고려합니다: (1) 관련 응용 분야 (의료), (2) 다양한 망각 인스턴스 (Forget instances) 세트를 포함하는 포괄적인 언러닝 설정, (3) 다중 레이블 및 다중 클래스 분류 작업을 포함하는 도전적인 언러닝 시나리오, (4) 유용성 (Utility)과 달성된 언러닝 범위 (Extent of unlearning) 측면 모두에서의 성능을 포함하는 평가 지표 (Evaluation metrics). REMEDI는 환자의 포괄적인 임상 데이터를 포함하는 MIMIC-III 임상 데이터베이스를 사용하여 개발되었습니다. 기존 언러닝 방법들을 이용한 실험 결과, 유용성과 언러닝 성능 사이에 트레이드오프 (Trade-off)가 존재함을 나타냅니다. 또한 이 방법들은 다중 레이블 분류 작업에는 대체로 적합하지 않습니다. 재현성을 촉진하기 위해, 우리는 우리의 벤치마크를 공개적으로 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

REMEDI: 다중 레이블 임상 질병 추론에서의 망각 및 유지 평가를 위한 벤치마크

요약

핵심 포인트

댓글