본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 25. 08:08

공개 정보를 통해 정리한 Claude Opus 4.7의 3가지 강화점과 2가지 신기능

요약

Anthropic의 Claude Opus 4.7 모델이 공개되었습니다. SWE-bench Verified에서 87.6%를 기록하며 코딩, 비전, 에이전트 정밀도가 대폭 강화되었으며, 태스크 버젯과 xhigh 에포트 레벨이라는 신기능을 도입했습니다.

핵심 포인트

  • SWE-bench Verified 87.6% 달성으로 코딩 성능 우위 확보
  • 고해상도 이미지 지원을 통한 시각 추론 및 UI 조작 능력 향상
  • 태스크 버젯 기능을 통한 에이전트 토큰 소비 제어 가능
  • 사고(Extended Thinking) 에포트 레벨에 xhigh 추가

본 기사는 Claude Code (Anthropic)를 활용하여 작성되었습니다.

검증 가능한 범위 내에서 공개 정보를 정리한 것이며,

코드 예시 등은 실제 환경에서의 동작 확인을 권장합니다.

SWE-bench Verified에서 87.6%. Claude Opus 4.7이 2026년 4월 16일에 공개되었을 때 나타낸 벤치마크 수치다.

이전 모델 (Opus 4.6)의 80.8%에서 약 7포인트 향상된 것은 수치의 폭보다 의미가 크다. "스스로 수정할 수 없었던 코드를 수정할 수 있게 되는" 경계선을 끌어올린 형태가 된다.

이 기사에서는 Anthropic의 공식 발표와 API 문서를 바탕으로 Opus 4.7의 변경점을 정리한다. 코딩(Coding)・비전(Vision)・에이전트(Agent) 정밀도의 3가지 강화점과, 태스크 버젯(Task Budget)・xhigh라는 2가지 신기능이 중심이다.

SWE-bench 스코어를 나열하면 변화의 크기를 알 수 있다.

벤치마크Opus 4.6Opus 4.7GPT-5.4
SWE-bench Verified80.8%87.6%82.4%
SWE-bench Pro53.4%64.3%57.7%

(출처: Vellum AI 벤치마크 해설)

SWE-bench Pro는 실제 GitHub 리포지토리 상의 어려운 버그 수정 태스크로, 보완 정밀도와는 다른 코드 이해력이 요구된다. Opus 4.7은 GPT-5.4 (57.7%)와 Gemini 3.1 Pro (54.2%)를 상회하며, 코딩 에이전트 분야에서 현시점의 우위성을 보여주고 있다.

Anthropic의 내부 테스트에서는 멀티 스텝 (Multi-step) 코딩 워크플로우 중에 "태스크를 도중에 포기하는" 비율이 Opus 4.6 대비 약 60% 감소했다고 한다. 툴 에러(Tool error)도 약 1/3로 줄어들어, 장시간의 자율 코딩에서 더욱 신뢰할 수 있는 거동을 보이게 되었다.

Opus 4.7은 Claude 모델 시리즈 최초로 고해상도 이미지 지원을 구현했다.

최대 해상도: 1,568px (1.15MP) → 2,576px (3.75MP) -
CharXiv-R (시각 추론): 툴 있음·없음 양쪽 조건에서 약 +13포인트 향상 -
OSWorld-Verified (컴퓨터 사용): 72.7% → 78.0% (GPT-5.4의 75.0%를 상회)

해상도 향상이 직접적으로 효과를 발휘하는 것은 대형 스크린샷 해석, 고밀도 도표 읽기, UI 조작 에이전트와 같은 용도다. 이전에는 해상도의 벽 때문에 어려웠던 조작이 가능해질 가능성이 있다.

MCP-Atlas (멀티 서버 MCP 환경에서의 툴 호출 평가)에서는 75.8% → **77.3%**로 개선되었다. GPT-5.4 (68.1%)나 Gemini 3.1 Pro (73.9%)를 앞서고 있다.

멀티 스텝 추론 정밀도도 14% 개선되었다. 내부 테스트를 종합하면, "수 시간에 걸친 자율 작업에서도 일관성을 유지할 수 있는" 방향으로의 강화가 중심인 것으로 보인다.

태스크 버젯 (Task Budget)은 에이전트 루프 전체 (사고・툴 호출・툴 결과・최종 출력)에서 소비하는 토큰 수의 목표치를 Claude에게 전달하는 기능이다 (공식 문서).

Claude 측은 카운트다운을 확인하며 작업의 우선순위를 조정하고, 버젯 내에서 완료하려고 시도한다. 설계 의도는 "도중에 중단하는 것이 아니라, 버젯 내에서 graceful하게 끝내도록" 유도하는 점에 있다.

이를 통해 "몇 토큰을 사용할지 알 수 없다"는 장시간 에이전트 실행의 불확정성에 대해 일정 수준의 컨트롤이 가능해진다. 비용 상한을 의식하며 자율 태스크를 설계하는 장면에서 실용적인 기능이다.

Opus 4.7에서는 사고 (Extended Thinking)의 에포트 레벨 (Effort level)에 xhigh (엑스트라 하이)가 추가되었다 (Effort API 문서).

레벨특징
low고속, 저비용
...xhigh
max최고 정밀도, 최대 비용

xhighhigh보다 더 깊은 추론을 수행하면서 max보다 저렴하게 유지할 수 있는 중간 포지션이다. Anthropic의 데이터에 따르면, xhigh가 복잡한 코딩 태스크에서 약 75%의 스코어를 달성한다고 한다.

Claude Code에서는 /effort xhigh

명령어로 세션 도중에도 변경할 수 있다 (Claude Code 베스트 프랙티스). Opus 4.7 공개 시점에서, 수동으로 에포트 (effort)를 설정하지 않았던 사용자들은 자동으로 xhigh로 전환된 것으로 알려졌다.

요금은 Opus 4.6과 동일하다. 입력 $5/M 토큰, 출력 $25/M 토큰으로 동결되었다.

다만 xhigh에서의 에이전트 (agent) 실행은 토큰 소비가 high 대비 약 2배가 된다는 보고가 있다. 장시간 세션에서는 용도에 따른 에포트 (effort) 전환이 현실적이며, Anthropic 또한 세션 도중의 전환을 권장하고 있다.

또한 커뮤니티에서는 "Opus 4.7은 4.6의 드롭인 (drop-in) 교체 모델이 아니다"라는 지적이 있다. 태스크 버젯 (task budget)이나 xhigh의 추가로 인해 동작이 변화한 측면이 있으므로, 기존의 에이전트 파이프라인 (agent pipeline)에 통합할 때는 테스트를 거치는 것이 바람직하다.

적재적소의 관점에서는 장시간의 자율 코딩 (autonomous coding)이나 컴퓨터 유즈 (computer use)에는 Opus 4.7이 적합하며, 단순한 보완(completion)이나 짧은 QA 태스크는 Sonnet 4.6이 가성비가 더 좋은 경우가 많다.

Opus 4.7의 강화는 "장시간·자율적인 코딩" 용도로의 집중이 두드러진다. SWE-bench 스코어 향상, 태스크 포기율 60% 감소, 툴 에러 (tool error) 1/3 감소 등, 모두 "에이전트를 신뢰하고 맡길 수 있는 시간을 늘리는" 방향의 개선이다.

어떤 상황에서 효과적인지에 대한 상세한 내용은 Anthropic의 베스트 프랙티스 (best practices)에 자세히 나와 있다. 우선 /effort xhigh로 전환해 보는 것이 차이를 체감할 수 있는 가장 빠른 방법이 될 것이다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0