본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:24

Mythos 연계 버그 재발견 벤치마킹

요약

Anthropic의 Mythos 자료를 바탕으로 시스템 작업에서의 버그 재발견 능력을 벤치마킹한 실험 결과입니다. GPT-5.5 xhigh, Claude Opus 4.7, Kimi K2를 대상으로 실험한 결과, 모델들이 실제 버그를 정확히 찾아내는 데 상당한 어려움을 겪고 있음이 확인되었습니다.

핵심 포인트

  • GPT-5.5 xhigh가 6개 작업 중 2개(또는 오답 포함 3개)의 버그를 찾아내며 가장 높은 성능을 보였습니다.
  • Claude Opus 4.7은 1회, Kimi K2는 0회의 대상 재발견을 기록하며 전반적으로 낮은 성공률을 보였습니다.
  • 주요 실패 원인은 모델이 할당된 파일 내에서 그럴듯한 대안 후보를 조기에 선택하고 확신하는 경향 때문입니다.
  • 시스템 특화 프롬프팅을 사용하더라도 54회의 시도 중 단 6회만이 정확한 대상 매칭에 성공했습니다.

Anthropic의 2026년 4월 Mythos 자료는 OpenBSD, FreeBSD, Linux, FFmpeg 및 브라우저 전반에 걸쳐 벤치마크 주장과 구체적인 버그 발견 사례를 결합하고 있습니다. 본 논문은 Mythos와 연계된 6개의 공개 또는 높은 신뢰도의 시스템 작업(system tasks)에 대해 통제된 대상 파일 재발견(target-file rediscovery) 실험을 보고합니다. 각 모델은 동일한 대상 파일 또는 파일들, 읽기 전용 소스 도구, 작업당 3회의 반복, 그리고 하나의 수동 대상 매칭 루브릭(manual target-matching rubric)을 제공받습니다. 프롬프트에서는 CVE 식별자, 패치 해시(patch hashes), 권고문(advisory text), 저자 이름, 공개 날짜, 정답 근본 원인(root cause) 언어를 제외했습니다. 실험에는 총 54회의 모델-작업 시도가 포함되었습니다: 3개의 모델, 6개의 작업, 그리고 3회의 반복을 통해 모델당 18회의 시도가 이루어졌습니다. GPT-5.5 xhigh는 18회 중 5회의 대상 재발견을 달성하여 6개 작업 중 2개를 커버했습니다; 잘못된 대상인 mpegts.c 발견을 별도로 계산하면 6개의 고유한 핵심 버그 중 3개를 찾아낸 것이 됩니다. Claude Opus 4.7은 18회 중 1회의 대상 재발견을 달성하여 6개 작업 중 1개를 커버했습니다. Kimi K2는 18회 중 0회의 대상 재발견을 기록했습니다. 지배적인 실패 모드는 할당된 파일 내에서 그럴듯한 대안 후보에 조기에 확신을 갖는 것입니다. 모델들은 공개된 Mythos 패치 증거에 의해 수정된 특정 불변량(invariant)을 놓치는 반면, 소스에 근거한 가설을 제출하는 경우가 많습니다. 이러한 결과가 Anthropic의 미공개 워크플로우를 반박하는 것은 아니지만, 이 유리한 대상 파일 스캐폴드(target-file scaffold) 하에서도 시스템 특화 프롬프팅(systems-specific prompting)이 54회의 총 시도 중 단 6회의 대상 매칭만을 생성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0