Pre-Flight: 항공 운영 지식에 대한 대규모 언어 모델(LLM) 평가를 위한 벤치마크

대규모 언어 모델(LLMs)은 문서화 및 교육 생성부터 고객 응대 어시스턴트에 이르기까지 항공 비즈니스 운영을 위해 점점 더 많이 제안되고 있습니다. 범용 벤치마크는 모델이 항공 특화 운영 지식에 대해 안전하고 정확하게 추론하는지 측정하지 못하며, 해당 도메인의 높은 이해관계(high stakes)와 규제된 특성은 이러한 격차를 중대한 문제로 만듭니다. 우리는 국제 표준 및 공항 지상 운영 자료에서 추출한 300개의 객관식 질문으로 구성된 오픈 소스 벤치마크인 Pre-Flight를 제시합니다. 이는 국제 공항 지상 운영, ICAO 및 미국 FAA 규정, 항공 일반 지식 및 복잡한 운영 시나리오를 다룹니다. 질문은 항공 교통 관리(air traffic management), 지상 운영(ground operations) 및 상업 비행 경험이 있는 실무자들에 의해 작성 및 검토되었습니다. 우리는 Inspect 평가 프레임워크를 사용하여 다양한 최신 상용 및 오픈 웨이트(open weight) 모델을 평가하며, 표준 객관식 프로토콜에 따라 정확도로 점수를 매기고, 새로운 모델이 출시됨에 따라 순위표(leaderboard)를 지속적으로 업데이트합니다. 컨퍼런스에서 항공 전문가들을 대상으로 한 소규모 퀴즈를 통해 얻은 약 95%의 비공식 전문가 참조값과 비교했을 때, 평가된 가장 강력한 모델(2026년 출시)조차 82.7%에 도달했으며, 이는 2025년 초의 약 75%에서 점진적으로 개선된 수치입니다. 따라서 전문가 수준의 신뢰성보다 상당히 낮고 지속적인 격차가 여전히 남아 있습니다. 우리는 데이터셋, 평가 하네스(evaluation harness) 및 결과를 공개하며, 이 벤치마크는 inspect_evals와 함께 배포되는 커뮤니티 평가 패키지 내에서 사용할 수 있습니다. 우리는 이러한 종류의 도메인 특화 평가가 비안전 필수(non safety critical) 항공 운영에서 생성형 AI를 책임감 있게 배포하기 위한 필수 전제 조건이라고 주장합니다.

Insights

Pre-Flight: 항공 운영 지식에 대한 대규모 언어 모델(LLM) 평가를 위한 벤치마크

요약

핵심 포인트

댓글

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달