SWE-rebench 리더보드 (2026년 3월, 4월, 5월): GPT-5.5, Opus 4.7, Cursor (Composer 2.5)
요약
SWE-rebench 리더보드가 110개의 새로운 Python 작업을 포함하여 업데이트되었습니다. 모델이 실제 GitHub PR 이슈를 해결하고 테스트를 통과하는 능력을 평가하며, 향후 소형 모델 추가 및 다국어 작업 지원을 계획하고 있습니다.
핵심 포인트
- 110개의 새로운 Python 기반 GitHub PR 작업 추가
- 실제 코드 수정 및 테스트 통과 여부를 평가하는 표준 방식 채택
- Gemini Flash 3.5, DeepSeek v4 Pro 등 소형 모델 추가 예정
- 다국어 작업 지원 및 더 큰 배치 단위의 업데이트 계획
안녕하세요 여러분,
잠시 자리를 비워 죄송합니다 — 저희는 더 복잡하고 품질이 높은 더 큰 규모의 작업 세트를 수집해 왔습니다. 지난 3개월을 다루는 주요 리더보드 업데이트를 공유하게 되어 기쁩니다.
저희는 3월, 4월, 그리고 5월 일부에 생성된 GitHub PR(Pull Request)에서 가져온 110개의 새로운 Python 작업으로 SWE-rebench 리더보드를 업데이트했습니다.
설정 방식은 표준 SWE-bench 형식을 따릅니다: 모델이 실제 PR 이슈를 읽고, 코드를 수정하며, 테스트를 실행하고, 전체 테스트 스위트(test suite)를 통과시켜야 합니다.
이번에는 적은 수의 작업으로 진행하던 기존의 월간 업데이트 대신, 더 넓은 작업 세트에서 모델을 평가할 수 있도록 더 큰 배치를 수집했습니다. 더 집중된 뷰를 원하신다면 리더보드에서 더 좁은 작업 범위를 선택할 수도 있습니다.
다음 주에 걸쳐 Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B를 포함하여 로컬 개발을 위한 소형 모델들을 추가할 예정입니다. 앞으로도 모델을 빈번하게 업데이트하되, 상대적으로 더 큰 작업 배치 단위로 진행할 것입니다. 또한 리더보드에 다국어 작업을 추가하는 작업과 곧 공유할 몇 가지 사항들도 준비 중입니다. 저희가 실행해 보길 원하는 모델이 있다면 요청을 보내주세요!
여러분의 의견과 피드백을 기다리겠습니다.
모델에 대해 토론하고, 아이디어를 공유하며, 질문을 하거나 문제를 보고하려면 저희 Discord의 리더보드 채널에 참여하세요:
https://discord.gg/V8FqXQ4CgU
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기