Pre-Flight: 항공 운영 지식에 대한 대규모 언어 모델(LLM) 평가를 위한 벤치마크
요약
항공 운영 지식에 특화된 LLM 평가를 위한 오픈 소스 벤치마크인 'Pre-Flight'를 소개합니다. 국제 표준 및 규정을 바탕으로 작성된 300개의 질문을 통해 최신 모델들의 도메인 특화 추론 능력을 측정합니다.
핵심 포인트
- 항공 도메인의 높은 규제와 안전 요구사항을 반영한 벤치마크 제시
- ICAO, FAA 규정 및 공항 지상 운영 시나리오 포함
- 최신 모델들도 전문가 수준(95%) 대비 낮은 정확도를 보임
- 도메인 특화 평가가 책임감 있는 AI 배포의 필수 전제 조건임을 강조
대규모 언어 모델(LLMs)은 문서화 및 교육 생성부터 고객 응대 어시스턴트에 이르기까지 항공 비즈니스 운영을 위해 점점 더 많이 제안되고 있습니다. 범용 벤치마크는 모델이 항공 특화 운영 지식에 대해 안전하고 정확하게 추론하는지 측정하지 못하며, 해당 도메인의 높은 이해관계(high stakes)와 규제된 특성은 이러한 격차를 중대한 문제로 만듭니다. 우리는 국제 표준 및 공항 지상 운영 자료에서 추출한 300개의 객관식 질문으로 구성된 오픈 소스 벤치마크인 Pre-Flight를 제시합니다. 이는 국제 공항 지상 운영, ICAO 및 미국 FAA 규정, 항공 일반 지식 및 복잡한 운영 시나리오를 다룹니다. 질문은 항공 교통 관리(air traffic management), 지상 운영(ground operations) 및 상업 비행 경험이 있는 실무자들에 의해 작성 및 검토되었습니다. 우리는 Inspect 평가 프레임워크를 사용하여 다양한 최신 상용 및 오픈 웨이트(open weight) 모델을 평가하며, 표준 객관식 프로토콜에 따라 정확도로 점수를 매기고, 새로운 모델이 출시됨에 따라 순위표(leaderboard)를 지속적으로 업데이트합니다. 컨퍼런스에서 항공 전문가들을 대상으로 한 소규모 퀴즈를 통해 얻은 약 95%의 비공식 전문가 참조값과 비교했을 때, 평가된 가장 강력한 모델(2026년 출시)조차 82.7%에 도달했으며, 이는 2025년 초의 약 75%에서 점진적으로 개선된 수치입니다. 따라서 전문가 수준의 신뢰성보다 상당히 낮고 지속적인 격차가 여전히 남아 있습니다. 우리는 데이터셋, 평가 하네스(evaluation harness) 및 결과를 공개하며, 이 벤치마크는 inspect_evals와 함께 배포되는 커뮤니티 평가 패키지 내에서 사용할 수 있습니다. 우리는 이러한 종류의 도메인 특화 평가가 비안전 필수(non safety critical) 항공 운영에서 생성형 AI를 책임감 있게 배포하기 위한 필수 전제 조건이라고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기