🔥 Claude Opus 4.7 출시, 숫자 말고 진짜 달라진 것들

#claude-opus-4.7#anthropic#ai-model#coding#llm

937자

12분

강의 목차

벤치마크부터 빠르게 짚자
비전이 3배 넓어졌다
지시를 "진짜로" 따른다
Mythos Preview라는 맥락
개발자 도구가 같이 바뀌었다
마이그레이션 할 때 알아둘 것
내 생각
참고 자료

어제 Claude Code 100시간 vs Codex 20시간 후기를 정리하면서 "Opus 4.6은 마감 쫓기는 엔지니어 같다"는 표현에 고개를 끄덕였다. 그리고 딱 하루 뒤, Anthropic이 Claude Opus 4.7을 내놓았다. 타이밍이 묘하다.

벤치마크부터 빠르게 짚자

숫자를 안 볼 수는 없으니까 핵심만 추린다.

SWE-bench Verified 87.6%. Opus 4.6이 80.8%였으니 6.8%p 올랐다. SWE-bench Pro에서는 64.3%로, GPT-5.4의 57.7%를 넘겼다. GPQA Diamond에서는 94.2%인데 GPT-5.4 Pro 94.4%, Gemini 3.1 Pro 94.3%와 거의 노이즈 수준이다. 추론 성능은 이제 세 모델이 천장에 나란히 붙어 있는 모양새.

Claude Opus 4.7 벤치마크 비교표
출처: Anthropic

실무 작업 벤치마크도 눈에 띈다. Artificial Analysis의 GDPval-AA에서 Opus 4.7이 1위(ELO 1753)를 찍었다. 금융, 법률 등 9개 산업의 44개 직종에서 실제 업무를 수행하는 평가인데, GPT-5.4(ELO 1674)를 79점 차로 넘겼다.

코딩 쪽은 더 구체적이다. Cursor의 CursorBench에서 70%. Opus 4.6이 58%였으니 12%p 점프다. 한 파트너사의 93개 태스크 코딩 벤치마크에서는 13% 향상이 확인됐다. Opus 4.6이나 Sonnet 4.6 둘 다 못 풀었던 태스크 4개를 Opus 4.7이 해결했다고 한다. Rakuten의 자체 SWE-Bench에서는 프로덕션 태스크 해결 수가 3배 늘었고, Notion은 "14% 높은 성공률에 토큰은 더 적고, 도구 에러는 1/3"이라고 보고했다.

비전이 3배 넓어졌다

이미지 해상도 상한이 1,568px에서 2,576px로 올라갔다. 약 1.15메가픽셀에서 3.75메가픽셀. 수치로만 보면 3배가 넘는 향상이다.

이게 왜 중요한지 하나만 보면 된다. XBOW의 자율 침투 테스트에서 시각 정확도가 Opus 4.6의 54.5%에서 Opus 4.7에서 98.5%로 올라갔다. XBOW 측은 "가장 큰 Opus 불만이 사실상 사라졌고, 이전에 쓸 수 없었던 종류의 작업이 열렸다"고 했다. computer-use 에이전트가 밀집 스크린샷을 읽고, 복잡한 다이어그램에서 데이터를 뽑고, 픽셀 단위 참조가 필요한 작업에 쓸 수 있게 된다는 뜻이다. Solve Intelligence는 화학 구조와 기술 다이어그램 인식이 크게 개선되어 생명과학 특허 워크플로에 바로 투입할 수 있다고 했다.

지시를 "진짜로" 따른다

Opus 4.6 사용자라면 이 대목에서 반가울 것이다. Anthropic 공식 발표에 이런 문장이 있다.

이전 모델이 지시를 느슨하게 해석하거나 일부를 아예 건너뛰었던 것과 달리, Opus 4.7은 지시를 문자 그대로 받아들인다.

어제 정리한 레딧 후기에서 뭐라고 했었나. "CLAUDE.md를 세션당 한 번은 무시한다." 바로 그 문제에 대한 대응이다. Ramp은 "Opus 4.6 대비 단계별 가이드가 훨씬 덜 필요해졌다"고 했고, Harvey는 법률 문서 편집에서 "양도 조항과 경영권 변경 조항을 올바르게 구별한다"고 보고했다. 이전 프론티어 모델들이 계속 실패하던 부분이라고.

그리고 하나 더. Opus 4.7은 파일 시스템 기반 메모리 활용이 더 나아졌다고 한다. 긴 멀티세션 작업에서 중요한 노트를 기억하고, 다음 태스크에 활용한다는 것. 매번 컨텍스트를 처음부터 쌓지 않아도 되는 방향으로 가고 있다.

다만 Anthropic도 경고한다. 기존 프롬프트가 "대충 넘어가주는" 동작에 의존하고 있었다면, Opus 4.7에서 오히려 예상치 못한 결과가 나올 수 있다고. 프롬프트 재조정이 필요하다.

Mythos Preview라는 맥락

이 출시를 제대로 읽으려면 열흘 전 이야기를 꺼내야 한다.

4월 7일, Anthropic은 Claude Mythos Preview를 공개했다. "역대 가장 강력한 모델"이다. SWE-bench Verified 93.9%, USAMO 2026에서 97.6%. 그런데 일반에 공개하지 않았다.

이유가 좀 무겁다. 이 모델이 "모든 주요 운영체제와 브라우저에서 제로데이 취약점을 자율적으로 발견하고 체인할 수 있다"는 것이다. Anthropic은 미국 정부 관계자들에게 "Mythos가 2026년 대규모 사이버 공격의 가능성을 크게 높인다"고 비공개 경고까지 했다.

대응이 Project Glasswing이다. AWS, Apple, Microsoft, Cisco, CrowdStrike, Linux Foundation 등 12개 핵심 파트너 기관과 40여 개 추가 기관에 Mythos를 제공하고, 방어 목적으로 쓰게 한다. 1억 달러 상당의 사용 크레딧과 오픈소스 보안 조직에 400만 달러 기부도 함께 발표했다.

Opus 4.7은 이 맥락의 다음 수순이다. Anthropic의 표현을 빌리면, "Mythos만큼 사이버 역량이 강하지 않은" 모델에 사이버 세이프가드를 먼저 실전 배포하는 것. 금지되거나 고위험인 사이버 보안 요청을 자동으로 탐지하고 차단하는 장치가 들어갔다. 합법적인 보안 연구를 원하는 전문가는 Cyber Verification Program에 가입하면 된다.

결국 Opus 4.7의 포지셔닝은 "가장 강한 모델"이 아니라, "가장 강한 일반 공개 모델"이다. Mythos급 모델을 언젠가 안전하게 풀기 위한 디딤돌이기도 하다.

개발자 도구가 같이 바뀌었다

모델 자체 외에 개발 환경 쪽 변화도 있다.

xhigh 추론 레벨. high와 max 사이에 xhigh가 끼어들었다. Claude Code에서는 기본값이 xhigh로 올라갔다. 코딩과 에이전트 작업에서는 high 또는 xhigh부터 시작하라고 권장한다.

Task Budgets (퍼블릭 베타). 장시간 자율 작업에서 토큰 소비를 제어하는 기능이다. 설정한 한도에 도달하면 Claude가 확인을 요청한다. 에이전트 워크플로에서 비용이 통제 없이 불어나는 걸 막아준다.

/ultrareview. Claude Code에 추가된 슬래시 커맨드로, 변경 사항을 읽고 버그와 설계 이슈를 잡아내는 전용 코드 리뷰 세션을 연다. Pro와 Max 사용자에게 3회 무료 체험이 주어진다.

Auto Mode 확대. Enterprise와 Teams에만 있던 Auto Mode가 Max 사용자에게도 열렸다. 파일 편집부터 터미널 명령, 테스트 반복까지 Claude가 자율적으로 실행하는 모드다.

마이그레이션 할 때 알아둘 것

가격은 동일하다. 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러. 모델 ID는 claude-opus-4-7. Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 모두 사용 가능하다.

주의할 건 토크나이저 변경이다. 같은 텍스트가 1.0~1.35배 더 많은 토큰으로 변환될 수 있다. 높은 추론 레벨에서는 출력 토큰도 늘어난다. 더 깊이 생각하는 대가다. Anthropic은 자체 코딩 평가에서 전체 토큰 효율이 오히려 개선됐다고 하지만, 실 트래픽에서 직접 측정해 보길 권한다. 마이그레이션 가이드가 공식 문서에 올라와 있다.

내 생각

어제 "마감 쫓기는 엔지니어" 비유에 공감했는데, Opus 4.7 파트너 피드백의 톤은 확연히 다르다. Devin은 "몇 시간 동안 일관성 있게 작동하고, 어려운 문제를 포기하지 않는다"고 했다. Notion은 "최초로 암묵적 요구사항 테스트를 통과한 모델"이라고 했다. Vercel은 "코드 작성 전에 증명을 먼저 한다"는 이전에 없던 행동을 보고했다. Windsurf는 아예 "세상에서 대시보드와 데이터 인터페이스를 가장 잘 만드는 모델"이라고 했다.

한편으로, Mythos Preview가 존재한다는 사실이 계속 머릿속에 걸린다. SWE-bench 93.9%짜리 모델이 있는데 공개를 못 하는 세상. AI의 역량 증가 속도가 안전 인프라의 성숙 속도를 앞서고 있다는 신호일 수 있다. Opus 4.7은 그 간극을 관리하려는 시도이고, 잘 되길 바란다.

나는 이미 Opus 4.7 위에서 이 글을 쓰고 있다. 지시 따르기가 정말로 나아졌는지는 며칠 더 써봐야 알겠다.