r/LocalLLaMA분석2026. 06. 30. 08:06

의료 VQA를 위해 약 900개의 스캔된 문서를 직접 라벨링한 결과, 다소 놀라운 결과가 나왔습니다

요약

직접 라벨링한 900개의 의료 스캔 문서를 활용하여 의료 VQA 성능을 테스트한 결과입니다. 기존 코딩 벤치마크와는 다른 양상이 나타났으며, 모델별 추론 속도와 사고 과정의 차이를 분석했습니다.

핵심 포인트

900개의 실제 의료 문서 직접 라벨링 및 테스트 수행
의료 VQA 결과가 기존 코딩 벤치마크 순위와 일치하지 않음
Qwen 모델이 Gemma4보다 약 5배 더 긴 추론 시간을 소요함
Qwen은 구조화된 출력 강제 시 사고 모드 실행에 어려움을 겪음

이것은 제가 직접 라벨링한 900개의 스캔된 실제 의료 문서에 대한 의료 VQA (Visual Question Answering) 결과입니다. 보안상의 이유로 점수 산정 시 미검출 (False Negatives)에 대해 매우 엄격한 패널티를 부여했습니다...

코딩 작업 벤치마크에서 보여준 것과 동일한 순위가 여기에서도 그대로 이어질 것이라고 생각했으나 그렇지 않았기에 결과가 매우 놀라웠습니다... 이 주제에 대해 여기서 논의해 볼 가치가 있다고 생각했습니다.
클라우드 모델들의 경우, 모두 동일한 (또는 동등한) 사고 과정 (Thinking effort)을 거칩니다.
참고: Qwen 모델들은 구조화된 출력 (Structured outputs)을 강제한 상태에서 사고 모드 (Thinking mode)로 적절한 속도로 실행하는 데 실패했습니다. 한 가지 발견한 점은 Qwen이 Gemma4보다 약 5배 더 오래 추론 (Reasoning)한다는 것입니다.
제출자: /u/Littlepharaoh
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

의료 VQA를 위해 약 900개의 스캔된 문서를 직접 라벨링한 결과, 다소 놀라운 결과가 나왔습니다

요약

핵심 포인트

댓글