본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 02. 19:41

K-BrowseComp

요약

AI 에이전트의 한국어 웹사이트 탐색 능력을 평가하기 위한 새로운 벤치마크인 K-BrowseComp를 소개합니다. GPT-5.5와 같은 최신 모델들도 복잡한 질문과 합성 진단 작업에서 낮은 성능을 보이며 한계를 드러냈습니다.

핵심 포인트

  • 한국어 웹 탐색 능력을 측정하는 새로운 벤치마크 공개
  • 프론티어 모델의 한국어 웹 탐색 성능 한계 확인
  • 합성 진단 분할 작업에서 매우 낮은 성능 기록
  • 데이터셋 및 코드는 Hugging Face와 GitHub에 공개

K-BrowseComp

AI 에이전트(AI agents)가 어려운 질문에 답하기 위해 한국어 웹사이트를 탐색할 수 있는지 테스트하는 까다로운 새로운 벤치마크(benchmark)입니다. GPT-5.5와 같은 프론티어 모델(Frontier models)은 검증된 작업에서 겨우 45%에 도달했습니다. 합성 진단 분할(synthetic diagnostic split) 결과는? 단 26%에 불과합니다.

데이터셋(Dataset)과 코드는 공개적으로 사용 가능합니다:
https://huggingface.co/datasets/prometheus-eval/k-browsecomp

https://huggingface.co/papers/2606.0404

https://github.com/prometheus-eval/K-BrowseComp

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0