요즘 에이전트 성능은 날아가는데 이걸 채점할 인프라가 없는 게 진짜 병목임. Claude Mythos가 METR 기준 자율 구동 16시간을

요즘 에이전트 성능은 날아가는데 이걸 채점할 인프라가 없는 게 진짜 병목임. Claude Mythos가 METR 기준 자율 구동 16시간을 넘겼다지만, 장기 과제 표본 자체가 없어서 신뢰구간이 이틀까지 널뛰고 있거든. 모델 믿고 무턱대고 며칠짜리 워크플로우 던져두면 토큰만 증발할 테니, 중간에 루프

Claude Mythos Preview's METR time horizons AT LEAST 16 hours

confidence interval: 8hrs 29 mins - 2 days 7 hours

but measurements are unreliable due low number of long-horizon tasks

Insights

요즘 에이전트 성능은 날아가는데 이걸 채점할 인프라가 없는 게 진짜 병목임. Claude Mythos가 METR 기준 자율 구동 16시간을

요약

핵심 포인트

댓글

News Corporation의 실적 발표 전 알아야 할 사항

Fox Corporation의 다음 실적 발표에서 기대할 수 있는 것

Knight-Swift Transportation Holdings Inc. 2026년 2분기 실적 전망

News Corporation의 실적 발표 전 알아야 할 사항

Fox Corporation의 다음 실적 발표에서 기대할 수 있는 것

Knight-Swift Transportation Holdings Inc. 2026년 2분기 실적 전망