arXiv논문2026. 06. 02. 12:23

K-BrowseComp: 한국어 맥락에 기반한 웹 브라우징 에이전트 벤치마크

요약

한국어 맥락에 특화된 웹 브라우징 에이전트 벤치마크인 K-BrowseComp를 소개합니다. 프런티어 모델과 한국어 LLM의 성능을 테스트하며, 합성 데이터를 활용한 스트레스 테스트 분할을 통해 모델의 한계를 정밀하게 진단합니다.

핵심 포인트

한국어 맥락 기반 400개 웹 브라우징 문제 구성
원어민 검증을 거친 300개의 K-BrowseComp-Verified 서브셋
프런티어 모델 및 한국어 LLM의 낮은 성능 확인
합성 데이터를 활용한 타겟 스트레스 테스트 제공
데이터 및 코드 공개

프런티어 모델 (Frontier model) 평가는 기초적인 능력(예: 지시 이행 및 추론)에서 구성적이고 에이전트적인 능력으로 이동하고 있으나, 한국어 에이전트 벤치마크는 여전히 부족한 실정입니다. 우리는 한국어 맥락에 기반하여 400개의 문제로 구성된 웹 브라우징 에이전트 벤치마크인 K-BrowseComp를 소개합니다. 300개의 문제로 이루어진 K-BrowseComp-Verified 서브셋은 한국어 원어민에 의해 수동으로 구축 및 검증되었습니다. 이 서브셋에서 GPT-5.5, DeepSeek-V4-Pro, GLM-5.1을 포함한 프런티어 LLM (Large Language Models)은 BrowseComp에 비해 크게 하락한 30.00~~45.67%의 성능만을 기록했으며, 한국의 자체 AI 파운데이션 모델 (Proprietary AI Foundation Model) 프로그램을 통해 출시된 한국어 LLM들은 0.00~~10.33%의 성능만을 달성했습니다. 우리는 웹 브라우징 문제를 해결하는 것과 생성하는 것 사이의 비대칭성을 활용하기 위해, 어려운 퓨샷 예시 (few-shot exemplars)와 실패 모드 타겟 생성 (failure-mode-targeted generation)을 사용하여 100개의 문제로 구성된 합성 분할 (synthetic split)을 추가로 구축했습니다. 적대적으로 필터링된 합성 진단 분할 (adversarially filtered synthetic diagnostic split)에서 가장 강력한 모델은 단 26.00%에 그쳤으며, 우리는 이 분할을 타겟 스트레스 테스트 (targeted stress test)로서 별도로 보고합니다. 우리는 데이터와 코드를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

K-BrowseComp: 한국어 맥락에 기반한 웹 브라우징 에이전트 벤치마크

요약

핵심 포인트

댓글