Mythos 연계 버그 재발견 벤치마킹

Anthropic의 2026년 4월 Mythos 자료는 OpenBSD, FreeBSD, Linux, FFmpeg 및 브라우저 전반에 걸쳐 벤치마크 주장과 구체적인 버그 발견 사례를 결합하고 있습니다. 본 논문은 Mythos와 연계된 6개의 공개 또는 높은 신뢰도의 시스템 작업(system tasks)에 대해 통제된 대상 파일 재발견(target-file rediscovery) 실험을 보고합니다. 각 모델은 동일한 대상 파일 또는 파일들, 읽기 전용 소스 도구, 작업당 3회의 반복, 그리고 하나의 수동 대상 매칭 루브릭(manual target-matching rubric)을 제공받습니다. 프롬프트에서는 CVE 식별자, 패치 해시(patch hashes), 권고문(advisory text), 저자 이름, 공개 날짜, 정답 근본 원인(root cause) 언어를 제외했습니다. 실험에는 총 54회의 모델-작업 시도가 포함되었습니다: 3개의 모델, 6개의 작업, 그리고 3회의 반복을 통해 모델당 18회의 시도가 이루어졌습니다. GPT-5.5 xhigh는 18회 중 5회의 대상 재발견을 달성하여 6개 작업 중 2개를 커버했습니다; 잘못된 대상인 mpegts.c 발견을 별도로 계산하면 6개의 고유한 핵심 버그 중 3개를 찾아낸 것이 됩니다. Claude Opus 4.7은 18회 중 1회의 대상 재발견을 달성하여 6개 작업 중 1개를 커버했습니다. Kimi K2는 18회 중 0회의 대상 재발견을 기록했습니다. 지배적인 실패 모드는 할당된 파일 내에서 그럴듯한 대안 후보에 조기에 확신을 갖는 것입니다. 모델들은 공개된 Mythos 패치 증거에 의해 수정된 특정 불변량(invariant)을 놓치는 반면, 소스에 근거한 가설을 제출하는 경우가 많습니다. 이러한 결과가 Anthropic의 미공개 워크플로우를 반박하는 것은 아니지만, 이 유리한 대상 파일 스캐폴드(target-file scaffold) 하에서도 시스템 특화 프롬프팅(systems-specific prompting)이 54회의 총 시도 중 단 6회의 대상 매칭만을 생성함을 보여줍니다.

Insights

Mythos 연계 버그 재발견 벤치마킹

요약

핵심 포인트

댓글

AI 시네마틱 콘텐츠 제작의 어려움과 해결책

b9917: 수정 사항: UGM 토크나이저의 OOB 읽기 문제 해결 (precompiled_charsmap 처리)

AstraZeneca, Sino Biopharmaceutical의 COPD 치료제 라이선스 계약에 2억 달러 선지급

대량 데이터를 가볍게 표시하려면 UI Toolkit의 ListView를 확인해 보세요 📋

b9917: 수정 사항: UGM 토크나이저의 OOB 읽기 문제 해결 (precompiled_charsmap 처리)

AstraZeneca, Sino Biopharmaceutical의 COPD 치료제 라이선스 계약에 2억 달러 선지급

대량 데이터를 가볍게 표시하려면 UI Toolkit의 ListView를 확인해 보세요 📋