Reddit요약2026. 05. 28. 03:15

SWE-rebench 리더보드 (2026년 3월, 4월, 5월): GPT-5.5, Opus 4.7, Cursor (Composer 2.5)

요약

SWE-rebench 리더보드가 110개의 새로운 Python 작업을 포함하여 업데이트되었습니다. 모델이 실제 GitHub PR 이슈를 해결하고 테스트를 통과하는 능력을 평가하며, 향후 소형 모델 추가 및 다국어 작업 지원을 계획하고 있습니다.

핵심 포인트

110개의 새로운 Python 기반 GitHub PR 작업 추가
실제 코드 수정 및 테스트 통과 여부를 평가하는 표준 방식 채택
Gemini Flash 3.5, DeepSeek v4 Pro 등 소형 모델 추가 예정
다국어 작업 지원 및 더 큰 배치 단위의 업데이트 계획

안녕하세요 여러분,

잠시 자리를 비워 죄송합니다 — 저희는 더 복잡하고 품질이 높은 더 큰 규모의 작업 세트를 수집해 왔습니다. 지난 3개월을 다루는 주요 리더보드 업데이트를 공유하게 되어 기쁩니다.

저희는 3월, 4월, 그리고 5월 일부에 생성된 GitHub PR(Pull Request)에서 가져온 110개의 새로운 Python 작업으로 SWE-rebench 리더보드를 업데이트했습니다.

설정 방식은 표준 SWE-bench 형식을 따릅니다: 모델이 실제 PR 이슈를 읽고, 코드를 수정하며, 테스트를 실행하고, 전체 테스트 스위트(test suite)를 통과시켜야 합니다.

이번에는 적은 수의 작업으로 진행하던 기존의 월간 업데이트 대신, 더 넓은 작업 세트에서 모델을 평가할 수 있도록 더 큰 배치를 수집했습니다. 더 집중된 뷰를 원하신다면 리더보드에서 더 좁은 작업 범위를 선택할 수도 있습니다.

다음 주에 걸쳐 Gemini Flash 3.5, DeepSeek v4 Pro, Qwen3.5-397B-A17B를 포함하여 로컬 개발을 위한 소형 모델들을 추가할 예정입니다. 앞으로도 모델을 빈번하게 업데이트하되, 상대적으로 더 큰 작업 배치 단위로 진행할 것입니다. 또한 리더보드에 다국어 작업을 추가하는 작업과 곧 공유할 몇 가지 사항들도 준비 중입니다. 저희가 실행해 보길 원하는 모델이 있다면 요청을 보내주세요!

여러분의 의견과 피드백을 기다리겠습니다.

모델에 대해 토론하고, 아이디어를 공유하며, 질문을 하거나 문제를 보고하려면 저희 Discord의 리더보드 채널에 참여하세요:
https://discord.gg/V8FqXQ4CgU

AI 자동 생성 콘텐츠

원문 바로가기

SWE-rebench 리더보드 (2026년 3월, 4월, 5월): GPT-5.5, Opus 4.7, Cursor (Composer 2.5)

요약

핵심 포인트

댓글