
Claude Opus 4.7 완전 해설 — SWE-bench Pro 64.3%의 충격
요약
Anthropic이 출시한 Claude Opus 4.7 모델이 소프트웨어 엔지니어링 벤치마크인 SWE-bench Pro에서 64.3%라는 놀라운 성적을 기록했습니다. 이는 AI가 실제 GitHub의 복잡한 버그를 스스로 수정할 수 있는 수준에 도달했음을 시사합니다.
핵심 포인트
- Claude Opus 4.7은 SWE-bench Pro에서 64.3% 기록
- 실제 GitHub 리포지토리의 버그를 수정하는 실전형 테스트
- Python, Go, TypeScript 등 4개 언어 및 다중 파일 수정 지원
- 전문 엔지니어의 업무를 수행할 수 있는 경계선 돌파
📺 이 기사는 YouTube 채널 きなこもっちーのテック深掘り의 영상 해설 기사입니다.
▶️ 영상은 이쪽으로 → Claude Opus 4.7 완전 해설 — SWE-bench Pro 64.3%의 충격
🐹 못치: "키나코, 최근 인터넷에서 '64.3%'라는 숫자가 화제인데, 그게 뭐야?"
🦜 키나코: "Anthropic이 Claude Opus 4.7이라는 새로운 AI 모델을 출시했어."
🦜 키나코: "그 모델이 SWE-bench Pro라는 테스트에서 64.3%를 기록했거든."
🐹 못치: "64%라니, 테스트 점수로 치면 낙제점 직전 아니야? 뭐가 그렇게 대단한 거야?"
🐹 못치: "Anthropic은 분명 전에도 영상에서 소개했던, AI 안전성을 중시하는 회사잖아?"
🦜 키나코: "그게 말이야, 학교 시험과는 전혀 달라. 전문 엔지니어가 몇 시간씩 걸리는 업무를 해결하게 하는 테스트거든."
🦜 키나코: "2026년 4월 16일에 출시되었고, API, Amazon Bedrock, Google Cloud 모두에서 사용할 수 있어."
🐹 못치: "엣, 전문적인 업무를 AI에게 시키는 테스트라고?"
🦜 키나코: "GitHub Copilot에도 같은 날 롤아웃(Rollout)되어, 개발자들이 바로 사용할 수 있게 되었어."
🦜 키나코: "맞아. 그래서 60%를 넘었다는 건 단순히 숫자가 올라간 것 이상의 의미가 있어."
🦜 키나코: "못치의 학교 시험과는 차원이 다르니까."
🦜 키나코: "AI에게 진짜 업무를 맡길 수 있는지 그 경계선을 넘은 순간인 거야."
🐹 못치: "뭔가 대단해 보이는데! 그럼 그 테스트에 대해 자세히 알려줘!"
📊 図: SWE-bench의 역사 타임라인. 2023년 프린스턴 대학교 → 2025년 Scale AI Pro 버전
🦜 키나코: "SWE-bench의 역사에 대해 조금 이야기할게. 원래 2023년에 프린스턴 대학교 연구자들이 만든 벤치마크(Benchmark)야."
🦜 키나코: "그것을 Scale AI가 발전시켜서, 더욱 실천적이고 오염에 강한 Pro 버전을 2025년에 만들었어."
📊 図: 「SWE-bench Pro」의 글자와 「Software Engineering Benchmark」의 전개 표시
🦜 키나코: "먼저 SWE-bench Pro에 대해 설명할게. SWE는 소프트웨어 엔지니어링 (Software Engineering)의 약자야."
📊 図: GitHub의 버그 보고 화면 일러스트. 빨간색 버그 아이콘
🦜 키나코: "Scale AI가 만든 벤치마크로, 실제 GitHub 리포지토리(Repository)의 진짜 버그를 AI가 수정하게 하는 테스트야."
📊 図: 자동차의 속도계와 AI의 스코어보드 대비 일러스트
🐹 못치: "벤치마크라고 하면, 자동차 엔진의 마력 테스트 같은 거야?"
🐹 못치: "진짜 버그? 샘플 문제 같은 게 아니라?"
🦜 키나코: "비슷할지도. 마력 테스트가 자동차의 성능을 측정하듯이, SWE-bench Pro는 AI의 코딩 능력을 측정하는 테스트야."
📊 図: 「1,865문항」「41개 리포지토리」 인포그래픽
🦜 키나코: "맞아, 실제로 현장에서 발생한 버그야. 문제 수는 1,865문항, 대상 리포지토리는 41개나 돼."
📊 図: 코드 에디터 화면. 여러 파일 탭과 「평균 107행」 텍스트
🦜 키나코: "게다가 수정에 필요한 코드는 평균 107행이며, 4개 이상의 파일에 걸쳐 있어."
📊 図: 4개의 프로그래밍 언어 로고를 나열한 그림
🦜 키나코: "심지어 Python, Go, TypeScript, JavaScript의 4개 언어에 걸쳐 있지."
🐹 못치: "107행이라니, 꽤 많은 양이네. 한두 줄짜리 간단한 수정이 아니구나."
📊 図: 시계 아이콘과 「수 시간 ~ 수일」 텍스트
🦜 키나코: "전문 엔지니어도 수 시간, 경우에 따라서는 수일이 걸리는 수준의 문제야."
📊 図: 못치의 머리 위에 번뜩임 마크
🐹 못치: "즉, 진짜 엔지니어의 업무를 얼마나 해결할 수 있는지를 보는 테스트라는 거네."
🦜 키나코: "맞아, 바로 그거야. 잘 이해했네."
📊 図: 「SWE-bench Verified」 → 「SWE-bench Pro」 화살표가 있는 전이도
🦜 키나코: "그리고 사실 이전에는 SWE-bench Verified라는 다른 테스트가 사용되었어."
📊 図: OpenAI의 로고와 「권장되지 않음」 스탬프 마크
🦜 키나코: "하지만 OpenAI가 "이제 Verified는 신뢰할 수 없다"라고 공식적으로 비권장(Non-recommended)을 선언했어."
🐹 못치: "에, 왜?"
📊 図: 「59.4%에 결함」 텍스트
🦜 키나코: "조사한 테스트의 약 6할에 결함이 발견됐어. 답이 학습 데이터에 유출된 거야."
🐹 못치: "근데 SWE-bench Pro는 괜찮아? 같은 일 안 생겨?"
📊 그림: '데이터 오염' 경고 아이콘과 테스트 데이터 → 학습 데이터 화살표 일러스트
🦜 키나코: "테스트의 답이 AI의 학습 데이터에 섞여 들어간, 이른바 데이터 오염(data contamination)이 확인된 거야."
📊 그림: GPL 라이선스 아이콘과 방패 마크
🦜 키나코: "Pro는 대책이 엄청나. 카피레프트 라이선스의 코드를 사용해서 법적으로 학습 데이터로의 혼입을 막고 있어."
🐹 못치: "6할!? 그건 테스트로서 성립되지 않잖아!"
📊 그림: '비공개 코드' 열쇠 마크
🦜 키나코: "게다가 스타트업으로부터 구매한 비공개 코드도 포함되어 있어서, AI가 사전에 보고 있는 게 없어."
📊 그림: SWE-bench Pro 로고에 '업계 신표준' 배지
🦜 키나코: "그래서 SWE-bench Pro가 새로운 업계 표준이 된 거야. 오염 대책을 확실히 했거든."
📊 그림: 리더보드 표시. Opus 4.7이 64.3%로 1위, GPT-5.4가 57.7%, Gemini 3.1 Pro가 54.2%
🦜 키나코: "그 Pro에서, Opus 4.7은 일반 공개 모델 중에서 압도적인 1위야."
📊 그림: '53.4% → 64.3% +10.9pt' 상승 그래프 애니메이션
🐹 못치: "이전 버전보다 10포인트 이상 올랐잖아! 그거 대단하다!"
📊 그림: '4가지 진화' 텍스트와 4개의 아이콘
🦜 키나코: "그럼, 64.3%를 기록한 기술적인 내용들을 살펴볼게."
🦜 키나코: "Opus 4.7은 단순히 스케일링(scaling)으로 좋아진 게 아니라, 4개의 직교하는 축에서 개선되고 있어."
🦜 키나코: "Opus 4.7에는 크게 4가지 개선이 있어."
📊 그림: '진화①: 비전 3배 해상도' 텍스트와 눈 아이콘
🦜 키나코: "먼저 첫 번째, 비전의 3배 해상도화야."
🐹 못치: "3배? 눈이 좋아졌다는 거야?"
📊 그림: '장변 1,568px → 2,576px (약 3.3배)' 비교 그림
🦜 키나코: "응. 이미지의 최대 사이즈가 장변 2,576픽셀까지 대응하게 됐어."
📊 그림: 대시보드 화면 스크린샷과 확대 이미지
🦜 키나코: "화면의 작은 글자나 버튼까지 제대로 읽을 수 있게 된 거야."
📊 그림: '57.7% → 79.5% (+21.8pt)' 막대 그래프
🦜 키나코: "Visual Navigation이라는 지표에서는 57.7%에서 79.5%로 급상승했어."
🐹 못치: "플러스 21.8포인트! 그것만으로도 엄청나지 않아?"
📊 그림: XBOW사 로고 이미지
🦜 키나코: "더 놀라운 건, 보안 기업 XBOW의 사내 테스트야."
📊 그림: 'XBOW 시각 정확도: 54.5% → 98.5%' 큰 숫자 표시
🦜 키나코: "시각 정확도가 54.5%에서 98.5%가 됐어. 거의 완벽해."
🐹 못치: "54에서 98!? 거의 만점이잖아!"
📊 그림: '진화②: Self-Verification (자기 검증)' 텍스트
🦜 키나코: "두 번째가 Self-Verification, 자기 검증이야."
🐹 못치: "자기 검증? 거짓말 안 하게 됐다는 거야?"
📊 그림: 못치가 작문을 재검토하는 일러스트
🐹 못치: "자기 검증이라는 게, 내가 작문을 제출하기 전에 선생님께 말씀 듣지 않아도 스스로 고치는 거 같은 거야?"
📊 그림: AI가 자신의 답변을 검토하고 수정하는 일러스트
🦜 키나코: "정확히 말하면, 오류를 발견하는 능력이 높아진 거야."
🦜 키나코: "바로 그거! 스스로 재검토해서 오류를 고칠 수 있게 된 거야. 좋은 비유네."
📊 그림: '생성 → 검증 → 보고'의 3단계 플로우 다이어그램
🦜 키나코: "답을 내기 전에, 스스로 출력을 검증한 후에 보고하게 됐어."
📊 그림: Hex사 로고와 데이터 분석 이미지
🦜 키나코: "데이터 분석의 Hex사가 흥미로운 보고를 하고 있어."
📊 그림: '데이터 결손 시: × 지어내기 → ○ 정직하게 보고' 비교 그림
🦜 키나코: "데이터가 빠져 있을 때, 그럴듯한 답을 지어내지 않고 정직하게 보고한다는 거야."
🐹 못치: "아는 척 안 하게 됐구나. 그거 중요하네."
📊 그림: Rust 로고와 음성 합성 엔진 일러스트
🦜 키나코: "한 기업에서는 Opus 4.7이 Rust로 음성 합성 엔진을 자율적으로 제로(zero)부터 구축해서,
📊 [IMG:1] 「진화③: xhigh effort」 텍스트와 게이지 아이콘
🦜 키나코: "세 번째는 xhigh라는 새로운 사고 레벨의 추가야."
📊 [IMG:2] 자기 검증 (Self-verification) 플로우 도해
🦜 키나코: "게다가 스스로 음성 인식에 통과시켜서 품질 체크까지 했다고 보고됐어."
🐹 못찌: "에— 그러니까, high와 max 사이? 그게 무슨 뜻이야?"
🐹 못찌: "직접 만들고 직접 테스트한다고!? 이제 완전 1인분 하는 엔지니어잖아!"
📊 [IMG:3] 테스트 용지를 재검토하는 이미지
🦜 키나코: "테스트 재검토 시간에 비유하면 이해하기 쉬울 거야."
📊 [IMG:4] 각 레벨의 재검토 이미지를 나열한 비교 일러스트
🦜 키나코: "low는 재검토 없음, high는 대략적인 확인, xhigh는 꼼꼼한 재검토, max는 전 문항 다시 풀기."
📊 [IMG:5] Claude Code의 인터페이스 화면
🦜 키나코: "게다가 Claude Code라는 개발자용 도구에서는 이 xhigh가 기본값(default)이 되었어."
📊 [IMG:6] xhigh(100k) > Opus 4.6 max(200k) 비교도
🦜 키나코: "심지어 xhigh는 100k 토큰인데, 이전 세대의 max인 200k보다 성능이 더 좋아."
🐹 못찌: "즉, 개발자가 아무것도 하지 않아도 알아서 깊게 생각해 준다는 거네."
🐹 못찌: "절반의 시간으로 더 좋은 점수를 받을 수 있다는 거야? 그거 진짜 똑똑하다."
📊 [IMG:7] 「진화④: Adaptive Thinking」 텍스트와 뇌 아이콘
🦜 키나코: "그리고 네 번째가 Adaptive Thinking. 적응적 사고야."
📊 [IMG:8] 간단한 질문과 어려운 질문의 사고 버블 대비도
🦜 키나코: "간단한 질문에는 빠르게, 어려운 질문에는 심도 있게 생각하기. 자동으로 조절하는 거지."
🐹 못찌: "에너지 절약도 되고, 어려운 문제에도 전력을 다할 수 있다는 뜻이지?"
🦜 키나코: "못찌, 지금 이해력 정말 좋은데? 바로 그거야."
📊 [IMG:9] 4가지 진화 아이콘이 조합되는 이미지
🦜 키나코: "이 네 가지가 조합되면서, AI가 마지막까지 업무를 완수할 수 있는 확률이 확 올라갔어."
📊 [IMG:10] 「벤치마크 vs 실측 데이터」 대비 이미지
🦜 키나코: "하지만 벤치마크 숫자만 보면 '정말로 쓸 수 있는 거야?'라는 생각이 들지?"
🐹 못찌: "맞아 맞아. 테스트 점수가 좋아도 일을 잘하는 건 별개니까."
📊 [IMG:11] 「벤치마크 반장」 코믹 일러스트
🦜 키나코: "AI 세계에는 '벤치마크 반장'이라는 말이 있어. 테스트 점수만 높고 실무에서는 쓸 수 없는 모델을 말해."
📊 [IMG:12] Cursor 로고
🦜 키나코: "그래서 실제로 사용한 기업의 데이터를 살펴볼게. 우선 Cursor."
🐹 못찌: "테스트만 잘하는 우등생 타입인가. 반에 꼭 한 명씩 있는 그런 애."
📊 [IMG:13] 「CursorBench: 58% → 70% (+12pt)」 막대그래프
🦜 키나코: "CursorBench에서 58%에서 70%로 뛰어올랐어. 12포인트나 상승했지."
🦜 키나코: "하지만 Opus 4.7은 실전에서도 제대로 결과를 내고 있어. 그 증거를 보여줄게."
📊 [IMG:14] 라쿠텐 로고와 「실전 태스크 해결 수: 3배」 인포그래픽
🦜 키나코: "다음은 라쿠텐. 사내 SWE-Bench에서 실전 태스크 해결 수가 무려 3배나 늘었어."
📊 [IMG:15] Warp 로고와 버그 수정 일러스트
🦜 키나코: "터미널 앱인 Warp사는 Opus 4.6이 풀지 못했던 경쟁 상태(race condition) 버그를 Opus 4.7이 수정했대."
🐹 못찌: "3배!? 라쿠텐은 일본 회사잖아! 엄청 친숙한데!"
🐹 못찌: "이전 버전이 못 했던 걸 풀 수 있게 된 거구나. 진화가 확 느껴지네."
📊 [IMG:16] Devin 로고와 시계 애니메이션
🦜 키나코: "Devin이라는 자율형 AI 에이전트에서는 몇 시간 동안 일관되게 자율 작업을 수행할 수 있게 되었어."
📊 [IMG:17] CodeRabbit 로고와 「리콜(Recall) +10% 이상」
🦜 키나코: "코드 리뷰 도구인 CodeRabbit은 리콜(Recall)이 10% 이상 개선되었고,"
📊 [IMG:18] Notion 로고와 「+14% 개선」 「에러 1/3」
🦜 키나코: "Notion은 14% 개선되어 툴의 에러가 3분의 1로 줄었어."
🐹 못찌: "암시적 니즈 테스트(Implicit Needs Test)를 통과했다는 건, 말하지 않아도 알아챈다는 뜻이야?"
📊 [IMG:19] 사용자의 표면적인 요청과 AI가 추측하는 진짜 니즈
🦜 키나코: "응. 사용자가 명시적으로 말하지 않았지만 실제로 해주길 바라는 것을 추측할 수 있는 거야."
📊 [IMG:1]: 「4.6: 놓침 → 4.7: 발견!」의 버그 발견 일러스트
🦜 키나코: "그리고 Anthropic 자체 내부 테스트에서, Opus 4.6이 찾아내지 못했던 버그를 4.7이 발견했어."
📊 [IMG:2]: 「무한 루프 문제: 거의 해소」 텍스트
🦜 키나코: "Genspark사도 흥미로운 보고를 했는데, 18번의 상호작용 중 1번꼴로 발생하던 무한 루프 (Infinite Loop) 문제가 거의 해소됐대."
📊 [IMG:3]: Factory사의 로고와 「+10~15%」 표시
🦜 키나코: "엔터프라이즈 자동화 기업인 Factory사는 태스크 성공률이 10에서 15% 향상되었다고 보고했어."
🐹 못치: "진짜 대단하다! 사람이 여러 명 달라붙어 체크해도 못 찾았을 버그잖아!?"
📊 [IMG:4]: Databricks 로고와 「오답 21% 감소」 그래프
🦜 키나코: "Databricks의 OfficeQA Pro에서는 오답이 21% 감소해서, 기업 문서 분석에서 최강인 Claude 모델이래."
📊 [IMG:5]: 기업 로고 목록과 등호(=) 표시
🦜 키나코: "벤치마크 (Benchmark) 수치가 실제 현장에서도 제대로 재현되고 있다는 뜻이야."
🦜 키나코: "단 하나의 테스트뿐만 아니라, 이렇게 많은 분야에서 일관되게 개선이 확인된 건 정말 대단한 일이야."
🐹 못치: "그런데 말이야, Opus 4.6에서 겨우 2개월 만에 이렇게 진화한 거야?"
📊 [IMG:6]: 경쟁 모델 비교표. Opus 4.7/GPT-5.4/Gemini 3.1 Pro/GPT-5.5의 스코어와 가격
🦜 키나코: "지금까지 Opus 4.7의 대단함을 살펴봤는데, 그럼 경쟁 모델과 비교하면 어떤지 정리해 줄게."
📊 [IMG:7]: Opus 4.6(2월) → Opus 4.7(4월) 타임라인
🦜 키나코: "맞아, Anthropic은 Opus 계열에서 약 2개월의 업데이트 사이클을 유지하고 있어. 경쟁이 치열하니까."
🦜 키나코: "다만 GPT-5.4는 가격이 Opus 4.7의 절반이라서, 비용을 중시하는 현장에서는 유력한 선택지야."
🐹 못치: "역시 GPT나 Gemini 같은 것들이 있으니까. 나도 이름은 들어본 적 있어."
📊 [IMG:8]: GPT-5.4의 스코어 57.7% 하이라이트. Opus 4.7의 64.3%와의 차이를 화살표로 표시
🦜 키나코: "먼저 OpenAI의 GPT-5.4. SWE-bench Pro는 57.7%로, Opus 4.7보다 6.6포인트 낮아."
📊 [IMG:9]: 가격 비교. GPT-5.4: $2.50/$15 vs Opus 4.7: $5/$25
🦜 키나코: "하지만 가격은 GPT-5.4가 입력 2.5달러, 출력 15달러로 Opus 4.7의 절반이지."
📊 [IMG:10]: Opus 4.7의 가격 표시. 「동결 $5/$25」
🦜 키나코: "참고로 Opus 4.7은 이전 세대와 동일한 가격인 입력 5달러, 출력 25달러야. 가격 인상 없이 성능이 올라간 거지."
🐹 못치: "저렴한데 성능은 밀리는 건가. 가성비 (Cost-performance)라는 게 참 어렵네."
🐹 못치: "가격은 그대로인데 성능 업! 그건 이득이잖아!"
📊 [IMG:11]: Gemini 3.1 Pro의 스코어 54.2% 표시. 10.1pt 차이 강조
🦜 키나코: "다음은 Google의 Gemini 3.1 Pro. SWE-bench Pro는 54.2%로 Opus 4.7과 10.1포인트 차이가 나."
📊 [IMG:12]: BrowseComp 비교. GPT-5.4: 89.3% vs Opus 4.7: 79.3%
🦜 키나코: "BrowseComp라는 웹 조사 테스트에서는 GPT-5.4가 89.3%로 Opus 4.7의 79.3%를 앞서고 있어."
📊 [IMG:13]: Gemini 3.1 Pro의 특징. 2M 컨텍스트 윈도우 (Context Window)를 아이콘으로 강조
🦜 키나코: "Gemini도 가격이 저렴하고, 200만 토큰의 문맥 길이 (Context Length)가 강점이야."
🐹 못치: "하지만 Opus 4.7이 나오고 일주일 뒤에 GPT-5.5가 나왔다며? 그건 어때?"
📊 [IMG:14]: GPT-5.5 vs Opus 4.7 스코어 비교. 58.6% vs 64.3%를 막대그래프로 표시
🦜 키나코: "그 부분이 흥미로운 지점이야. GPT-5.5의 SWE-bench Pro는 58.6%. Opus 4.7의 64.3%에는 미치지 못했어."
📊 [IMG:15]: Terminal-Bench 2.0 비교. GPT-5.5: 82.7% vs Opus 4.7: 69.4%
🦜 키나코: "다만 Terminal-Bench에서는 GPT-5.5가 앞서고 있어. 잘하는 분야가 다른 거지."
🐹 못치: "에이, 테스트에 따라 결과가 다르다고? 그럼 누가 더 강한지 모르겠잖아!"
🦜 키나코: "좋은 질문이야. 지금 업계에서는 이렇게 정리하고 있어."
📊 図: [IMG:1] 영역 구분도. Opus 4.7=코딩·도구 사용, GPT-5.5=Web 조사·장시간 자동화
🦜 키나코: "코딩이나 도구 사용이라면 Opus 4.7, Web 조사나 장시간 자동화라면 GPT-5.5. 잘하는 분야가 다른 거야."
🐹 못치: "그렇구나, 만능이 아니라 특화된 분야가 있는 거네."
📊 図: [IMG:2] "사이버 능력을 의도적으로 축소" 텍스트
🦜 키나코: "Anthropic은 'Opus 4.7에서 사이버 능력을 의도적으로 축소했다'고 공식적으로 인정했어. 안전을 위해서 말이야."
📊 図: [IMG:3] Mythos Preview의 스코어 77.8%를 어두운 연출로 표시
🦜 키나코: "하지만 사실 Anthropic에는 더 강력한 모델이 있어. Mythos Preview라고 불러."
📊 図: [IMG:4] 잠겨 있는 서버실. "Project Glasswing 한정 제공" 텍스트
🦜 키나코: "사이버 공격 능력이 너무 높아서 일반 공개를 못 하고 있어. 약 11개 기업에만 한정 제공되고 있지."
📊 図: [IMG:5] Mythos → Opus 4.7 → 향후 일반 공개로 이어지는 로드맵 도표
🦜 키나코: "Anthropic은 Opus 4.7을 'Mythos를 향후 널리 전개하기 위한 테스트베드 (Testbed)'로 위치시키고 있어."
📊 図: [IMG:6] 왕관 마크가 붙은 Opus 4.7. "GA (일반 제공) 모델 최강" 텍스트
🐹 못치: "그러니까 더 강력한 게 있지만, 일반인이 손에 넣을 수 있는 것 중에는 이게 최강이라는 거구나."
📊 図: [IMG:7] "64.3%의 진짜 의미"라는 타이틀 카드
🦜 키나코: "자, 이제부터가 가장 전달하고 싶은 내용이야. 64.3%라는 숫자의 진짜 의미에 대해 이야기할게."
🐹 못치: "그냥 테스트 점수가 높다는 뜻 아니야?"
📊 図: [IMG:8] 임계치를 넘어서는 화살표 일러스트. "감시 없이 위임할 수 있는 수준" 텍스트
🦜 키나코: "이건 '사람이 보고 있지 않아도, 어려운 코딩 작업을 AI에게 맡길 수 있는 임계치 (Threshold)'를 넘었다는 신호야."
📊 図: [IMG:9] 1년 전 → 현재의 진화를 보여주는 커다란 화살표 그래프
🦜 키나코: "벤치마크 (Benchmark) 세계에서는 1년 전 톱 모델의 스코어가 23%대였어. 거기서 40포인트 이상의 진화가 일어난 거야."
📊 図: [IMG:10] "2024년 9월: 23% → 2026년 4월: 64.3%" 진화 그래프
🦜 키나코: "참고로 1년 반 전 SWE-bench Pro의 톱은 23% 정도였어."
📊 図: [IMG:11] 기업 실측 데이터 목록. Cursor/Rakuten/Devin의 스코어 개선을 나열하여 표시
🦜 키나코: "아까 소개한 기업 데이터를 봐도, 단일 벤치마크뿐만 아니라 이종 테스트에서 일관성을 보이고 있지?"
📊 図: [IMG:12] 이종 기업의 개선 패턴을 목록으로 표시
🦜 키나코: "증거는 단일 테스트가 아니라 Cursor, Rakuten, Notion, Devin, XBOW라는 완전히 다른 분야의 기업들에서 재현되고 있어."
🐹 못치: "23%에서 64%!? 1년 반 만에 40포인트 이상이나 올랐다고!?"
📊 図: [IMG:13] "Tool → Coworker"의 변화를 보여주는 일러스트
🦜 키나코: "즉, '도구 (Tool)'가 '동료 (Coworker)'가 된 순간이야. Replit은 '더 나은 코워커 (Better Coworker)'라고 표현하고 있어."
📊 図: [IMG:14] "/ultrareview" 커맨드 스크린샷
🦜 키나코: "그리고 Claude Code에는 새롭게 /ultrareview라는 커맨드도 추가되었어."
📊 図: [IMG:15] 지수 함수적인 성장 곡선 그래프
🦜 키나코: "맞아. AI의 코딩 능력은 지수 함수적으로 성장하고 있어. 멈출 기미가 보이지 않아."
📊 図: [IMG:16] AI 리뷰어가 코드를 정밀 검토하는 이미지
🦜 키나코: "전용 리뷰 세션이 시작되어, 인간 리뷰어처럼 버그를 찾아내 줘."
📊 図: [IMG:17] auto mode 설명 화면
🦜 키나코: "그리고 Max 플랜 사용자들을 위해 auto mode도 추가되었어. 중단 없이 장시간 태스크를 실행할 수 있지."
🐹 못치: "도구에서 동료라니! 그건 정말 엄청난 변화네!"
🐹 못치: "코드만 쓰는 게 아니라 리뷰까지 해주는구나. 정말 동료네."
📊 図: [IMG:18] 주의 표시. "프롬프트 재조정이 필요" 텍스트
🦜 키나코: "다만 주의할 점도 있어. 지시를 너무 글자 그대로 해석하는 경향이 강해져서, 프롬프트 (Prompt) 조정이 필요해."
📊 図: [IMG:19] 토크나이저 (Tokenizer) 변경 도표
🦜 키나코: "그리고 토크나이저가 바뀌어서, 같은 문장이라도 비용이 최대 35% 증가할 가능성이 있어."
📊 図: [IMG:20] BrowseComp의 스코어 저하를 빨간색 글씨로 표시
🦜 키나코 「Web 조사 계열인 BrowseComp에서는 83.7%에서 79.3%로 떨어졌어. 만능은 아니야.」
📊 図: Mythos→一般公開への道筋を示すロードマップ
🦜 키나코 「Mythos 프리뷰가 널리 공개되는 날이 「다음 임계점 (Threshold)」이 될 거야. Opus 4.7은 그 가교 역할을 하는 거지.」
🐹 못치 「하지만 말이야, 나처럼 프로그래밍을 안 하는 사람한테도 상관이 있어?」
🐹 못치 「다음 임계점이라는 게, 훨씬 더 대단한 일이 일어난다는 뜻이야?」
📊 図: スマホアプリ・Webサービスの裏側でAIが動いているイメージ図
🦜 키나코 「물론 상관있지. 앞으로는 AI가 작성한 코드를 누구나 사용하는 시대가 될 거야.」
📊 図: 「77.8% → 一般公開?」の未来予想図
🦜 키나코 「77.8%의 Mythos가 일반 공개된다면, AI 코딩의 풍경은 완전히 바뀔 거라고 생각해.」
📊 図: 「コード品質向上→アプリ品質向上→ユーザー体験向上」の連鎖図
🦜 키나코 「AI가 작성하는 코드의 품질이 올라간다는 것은, 모두가 사용하는 앱이나 서비스의 품질도 올라간다는 뜻이야.」
🐹 못치 「아ー, 내가 쓰고 있는 앱의 내용물이 좋아진다는 거구나. 그건 기쁠지도.」
📊 図: 飼い主のデスクにAIレビュアーが座っているコミカルなイラスト
🦜 키나코 「머지않아 주인님의 코드 리뷰도 AI에게 전부 맡길 수 있게 될지도 모르겠네.」
🐹 못치 「주인님, 일자리가 없어지잖아! …아, 그래도 그러면 나랑 더 많이 놀아줄 거야?」
📊 図: まとめ画面。「Claude Opus 4.7: 64.3%の衝撃」のタイトル
🦜 키나코 「그런 이유로 이번에는 Claude Opus 4.7의 SWE-bench Pro 64.3%에 대해 깊이 있게 파헤쳐 봤어.」
🐹 못치 「도구에서 동료로, AI의 진화는 정말 빠르구나.」
🦜 키나코 「4가지 기술 진화와 기업 데이터를 통해 살펴봤지만, AI가 「동료」가 되는 시대는 이미 시작되었어.」
📊 図: チャンネル登録ボタンと高評価ボタンのアニメーション
🐹 못치 「이 영상이 재미있었다면 채널 구독과 좋아요 부탁드립니다! 후원도 해주신다면 저 울지도 몰라요!」
키나코 못치의 테크 심층 분석 에서는, AI/LLM을 중심으로 한 테크 전반을 햄스터(🐹 못치)와 세키사이 인코(🦜 키나코)의 대화로 즐겁게 해설하고 있습니다.
채널 구독·좋아요 부탁드립니다! → https://www.youtube.com/watch?v=qaiV1mECY9g
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기