실제 소비자 기기 수리 질문에 대한 LLM의 효과성 평가
요약
소비자 기기 수리 질문에 대한 LLM의 성능을 평가하기 위해 Reddit 데이터를 기반으로 한 새로운 벤치마크를 제안합니다. 정확성, 완전성, 실용성, 안전성 기준을 통해 6개 모델을 분석한 결과, LLM이 유용할 수 있으나 고위험 수리 작업에는 여전히 신뢰도가 낮음을 확인했습니다.
핵심 포인트
- 991개의 실제 수리 질문을 포함한 새로운 벤치마크 도입
- 정확성, 완전성, 실용성, 안전성 4가지 특화 기준 적용
- 휴대폰 수리 분야에서 모델들의 높은 오류율과 안전성 문제 발견
- 영어 대비 뱅골어 응답의 성능 저하 확인
- GPT-4o(본문 GPT-5.4 오기 추정)가 전반적으로 가장 우수한 성능 기록
소비자 기기 수리는 대규모 언어 모델 (LLMs)을 위한 중요하지만 아직 충분히 탐구되지 않은 테스트베드입니다. 수리 작업은 불완전한 문제 설명에 대한 추론, 하드웨어 특화 진단, 실행 가능한 문제 해결, 그리고 안전이 중요한 의사결정을 요구하며, 잘못된 조언은 기기 손상, 배터리 위험 또는 영구적인 데이터 손실을 초래할 수 있습니다. 우리는 Reddit에서 수집한 휴대폰 수리, 컴퓨터 수리 및 데이터 복구를 아우르는 991개의 실제 수리 질문 벤치마크를 도입하며, 각 질문은 기술자가 작성한 참조 솔루션과 쌍을 이루고 있으며, 교차 언어 성능을 평가하기 위해 뱅골어 (Bangla) 번역을 제공합니다. 우리는 네 가지 수리 특화 기준인 정확성 (correctness), 완전성 (completeness), 실용성 (practicality), 안전성 (safety)을 사용하여 영어와 뱅골어로 6개의 최첨단 LLMs를 평가합니다. 우리의 결과는 LLMs가 유용한 수리 지원을 제공할 수 있지만, 엄격한 평가와 명시적인 안전 보호 장치 없이는 고위험 실제 수리 작업에 대해 여전히 신뢰할 수 없음을 보여줍니다. 휴대폰 수리는 가장 어렵고 안전에 민감한 영역이며, 모든 모델이 보드 레벨 진단 (board-level diagnosis), 수리 우선순위 지정, 안전한 복구 절차에서 상당한 오류를 범합니다. 도메인과 모델 전반에 걸쳐 뱅골어 응답은 영어 응답보다 일관되게 낮은 성능을 보입니다. 평가된 모델 중에서는 GPT-5.4가 전반적으로 가장 우수한 성능을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기