CNN 및 GRU 기반 네트워크를 이용한 천식과 COPD의 감별 진단을 위한 2D 입력 표현 및 서브 페이즈(Sub-phase) 융합 전략
요약
CNN과 GRU를 활용하여 천식과 COPD를 감별 진단하는 딥러닝 연구입니다. 적응형 길이 윈도잉과 MFCC 행렬을 통해 시간적 차원 문제를 해결하고, 다양한 특징 융합 전략 및 데이터 증강 기법의 성능을 비교 분석했습니다.
핵심 포인트
- MFCC 기반 표현이 로그-멜 스펙트로그램보다 우수한 성능을 보임
- 적응형 길이 윈도잉을 통해 호흡 주기의 시간적 차원 불일치 해결
- 피험자 기반 평가에서 최고 F1-score 0.855 달성
- 데이터 증강 기술이 오히려 성능을 저하시킬 수 있음을 확인
본 연구는 딥러닝을 사용하여 멜 주파수 케프스트럼 계수 (MFCC) 행렬 및 로그-멜 스펙트로그램 (log-mel spectrograms)과 비교하여 VAR 모델의 성능을 탐구하는 것을 목표로 합니다. 폐음 분류에서 스펙트로그램 기반 표현은 호흡 주기의 지속 시간이 다양함에 따라 일관되지 않은 시간적 차원 (temporal dimensions) 문제를 겪습니다. 전통적인 트리밍 (trimming) 및 제로 패딩 (zero-padding)과 함께, 시간적 차원을 고정하기 위해 적응형 길이 윈도잉 (adaptive-length windowing)이 제시되었습니다. 다양한 파라미터를 테스트함으로써 이들의 스펙트럼 및 시간적 차원을 최적화했습니다. 서브 페이즈 (sub-phases)를 통해 얻은 2차원 표현으로부터 특징을 추출하기 위해 서로 다른 합성곱 신경망 (CNN) 구조가 채택되었습니다. 추출된 서브 페이즈 특징은 직접 연결 (direct concatenation), 게이트 순환 유닛 (GRU) 네트워크, 그리고 어텐션 메커니즘 (attention mechanism)이 적용된 GRU를 포함한 다양한 전략을 사용하여 융합되었습니다. 모델 성능은 호흡 주기 기반 평가와 여러 호흡 주기를 포함하는 피험자 기반 평가를 통해 평가되었습니다. 데이터 크기의 한계에 대처하기 위해 여러 데이터 증강 (data augmentation) 기술도 연구되었습니다. 가장 좋은 주기 기반 F1-score (0.877)는 서브 페이즈 표현당 13개의 계수와 64포인트 시간 해상도를 가진 MFCC 행렬과 직접적인 특징 연결을 사용하여 얻어졌으며, 가장 좋은 피험자 기반 F1-score (0.855)는 전체 주기 표현당 13개의 계수와 256포인트 시간 해상도를 가진 MFCC 행렬을 사용하여 얻어졌으며, 두 경우 모두 적응형 길이 윈도잉을 통해 얻어졌습니다. 증강은 전반적으로 모델의 성능을 저하시켰으나, 테스트된 방법 중에서는 mixup 증강이 가장 좋았습니다. MFCC는 천식과 COPD의 구별에 있어 로그-멜 스펙트로그램 및 VAR 모델보다 우수한 성능을 보였습니다. 정교한 융합 전략은 진단을 개선하지 못했습니다. 증강은 기여하지 않았으며, 이는 폐음 연구에서 실제 데이터 (authentic data)의 중요성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기