🔥 GPT-5.5가 나왔는데, 이건 좀 다른 각도로 봐야겠다

#openai#gpt-5-5#llm#ai-news

1290자

16분

강의 목차

발표된 것
벤치마크 표를 한 번 더 보자
더 중요한 건 "어떻게" 쓰느냐다
그리고, 환각률 86%
안전 이야기
이 업데이트 페이스를 어떻게 봐야 할까
내가 실제로 해볼 것
정리하며
참고 자료

GPT-5.5 발표 편집 이미지 — 벤치마크 바 그래픽

새벽 2시에 OpenAI 발표를 봤다. GPT-5.5. 또다.

솔직히 처음엔 "벌써?" 싶었다. GPT-5.4가 나온 지 얼마 됐다고. 그런데 벤치마크 표를 한 번 훑고 나니까 손이 멈췄다. Terminal-Bench 2.0에서 82.7%. Claude Opus 4.7은 69.4%, Gemini 3.1 Pro는 68.5%. 13~14포인트 차이다. 보통 프론티어 모델들은 소수점 단위로 엎치락뒤치락하는데, 이 정도로 벌린 건 오랜만이다.

그런데 같은 페이지를 더 내려가다가 전혀 다른 숫자 하나를 발견했다. 환각률 86%. 이게 진짜야? 이 글은 그 두 숫자 사이에서 생각을 정리한 결과다.

발표된 것

4월 23일, OpenAI가 GPT-5.5와 GPT-5.5 Pro를 공개했다. GPT-5.5는 ChatGPT의 Plus / Pro / Business / Enterprise 플랜과 Codex에 풀리고, GPT-5.5 Pro는 ChatGPT(Pro / Business / Enterprise)에만 먼저 올라간다. API는 "very soon", 날짜는 안 박았다.

숫자로 보면 이렇다.

GPT-5.5 API: 입력 $5 / 출력 $30 per 1M tokens, 1M 컨텍스트
GPT-5.5 Pro API: 입력 $30 / 출력 $180 per 1M tokens (GPT-5.4 Pro와 동일)
Codex에선 400K 컨텍스트, Fast mode는 1.5배 빠르지만 2.5배 비쌈
Batch/Flex는 표준 가격의 절반, Priority는 2.5배

가격을 보자마자 나는 표정이 살짝 일그러졌다. GPT-5.4 발표 기준으로 GPT-5.4는 입력 $2.50 / 출력 $15였는데, 5.5는 입력·출력 모두 정확히 두 배다. 그런데 OpenAI는 "같은 Codex 태스크를 더 적은 토큰으로 끝낸다"고 주장한다. 토큰당 비싸지만 총 토큰이 줄어드니 실제 결제액은 비슷할 수 있다는 논리다. 나는 아직 믿지 않는다. 직접 돌려봐야 안다.

벤치마크 표를 한 번 더 보자

OpenAI가 내건 주요 숫자들을 옮기면 이렇다.

Terminal-Bench 2.0: 82.7% (GPT-5.4 75.1%, Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%)
SWE-Bench Pro: 58.6%
Expert-SWE(내부): 73.1% (GPT-5.4 68.5%)
GDPval(승 또는 무): 84.9% (Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%)
OSWorld-Verified: 78.7% (Opus 4.7 78.0%)
BrowseComp: 84.4% / Pro 90.1%
FrontierMath Tier 1–3: 51.7% / Pro 52.4%
FrontierMath Tier 4: 35.4% / Pro 39.6%
CyberGym: 81.8%
Tau2-bench Telecom: 98.0% (프롬프트 튜닝 없이)

Artificial Analysis Intelligence Index에선 60점(xhigh). GPT-5.4(xhigh), Opus 4.7, Gemini 3.1 Pro Preview가 모두 57점 근처에서 공동 2위였으니, 여기서만큼은 GPT-5.5가 확실히 앞섰다. 외부 매체들은 공식 벤치마크 기준으로 GPT-5.5가 대다수 평가에서 SOTA를 잡았다고 정리했다. 다만 "14개 SOTA" 같이 자주 돌아다니는 숫자는 매체마다 집계 방식이 달라 참고 정도로만 보면 된다.

코딩 쪽이 특히 인상적이다. OpenAI는 GPT-5.5가 Artificial Analysis Coding Index에서 경쟁 프론티어 코딩 모델 대비 절반 비용으로 SOTA를 낸다고 주장한다. 이 문장을 좋아하지는 않는다. "절반 비용"이라는 표현은 누구의 어떤 시나리오를 기준으로 한 것인지가 불분명하기 때문이다. 그래도 숫자를 직접 보면 경쟁자들과의 격차가 작지는 않다.

더 중요한 건 "어떻게" 쓰느냐다

벤치마크를 지겹게 나열한 이유는, 이 중 상당수가 에이전트 능력 을 보는 평가라는 점 때문이다. Terminal-Bench 2.0은 명령줄 작업 전반의 계획·반복·도구 사용을 본다. OSWorld-Verified는 모델이 실제 컴퓨터 환경을 스스로 운용 하는지를 본다. GDPval은 44개 직업군의 실무 산출물을 평가한다.

이 맥락에서 흥미로운 건 OpenAI 내부 사용 통계다. 발표문에 따르면 OpenAI 직원의 85% 이상이 매주 Codex를 쓰고 있다. 엔지니어링뿐 아니라 파이낸스, 커뮤니케이션, 마케팅, 데이터사이언스, PM까지. 파이낸스 팀은 GPT-5.5 Codex로 2만 4,771건의 K-1 세무 서식(총 7만 1,637쪽)을 검토했다고 한다. 지난해 대비 2주 단축이다.

나는 이런 사례가 더 설득력 있다. "82.7%"라는 숫자보다 "세무서식 2만 장을 2주 빨리 끝냈다"는 문장이 훨씬 구체적이고 검증 가능하기 때문이다.

초기 테스터들의 말도 꽤 직설적이다. Every의 Dan Shipper는 "내가 써본 코딩 모델 중 처음으로 진지한 개념적 명료함 을 가진 모델"이라고 했고, NVIDIA의 한 엔지니어는 "GPT-5.5 접근권을 잃는 건 팔 한쪽을 잃는 기분"이라고 했다. 과장법이긴 하지만, 그만큼 실제 업무에서 체감 이 바뀌었다는 뜻으로 읽힌다.

수학 쪽도 화제다. OpenAI는 GPT-5.5의 내부 변형(커스텀 하니스 포함)이 Ramsey 수에 관한 오프대각 점근 결과의 새로운 증명을 찾았고, 이를 Lean으로 형식 검증했다고 밝혔다. Ramsey 수는 조합론의 중심 대상 중 하나다. "어떤 구조가 반드시 나타나려면 네트워크가 얼마나 커야 하는가"를 묻는 문제라고 이해하면 대략 맞다. 아직 논문 형태로는 공개되지 않은 것 같지만, 만약 이게 제대로 검증된 결과라면 AI가 증명 보조 가 아니라 증명 공동 저자 역할을 한 사례가 된다. 나는 이 부분이 가장 흥미롭다. 벤치마크 점수는 포화되기 마련이지만, 실제 미해결 문제를 푸는 건 다른 층위의 이야기다.

그리고, 환각률 86%

여기까지 쓰면서 나는 계속 한 숫자가 머릿속에서 맴돌았다.

Artificial Analysis가 도입한 AA-Omniscience라는 벤치마크가 있다. 40개 이상의 주제에 걸쳐 지식 과 환각 을 동시에 측정한다. 정확히 아는 건 맞히고, 모르는 건 "모른다"고 답해야 점수가 오른다. 그냥 아무거나 답하면 패널티다.

이 평가에서 GPT-5.5는 정확도 57%로 역대 최고다. 그런데 환각률이 86%다. Claude Opus 4.7은 환각률 36%, Gemini 3.1 Pro Preview는 50%다.

이 조합이 의미하는 바가 뭔지 잠깐 생각해봐야 한다. GPT-5.5는 "더 많이 알고" 있는 동시에 "모르는 걸 아는 척하는 빈도"도 훨씬 높다는 뜻이다. 법률 초안, 의료 문헌 리뷰, 금융 실사, 규제 대응 같이 틀린 답보다 "모른다"가 더 가치 있는 영역에서 이건 치명적일 수 있다.

Artificial Analysis의 분석은 이 점을 명시적으로 짚었다. AA-Omniscience 점수는 14포인트 올랐지만 그 향상 대부분이 지식 에서 왔고, 환각 개선은 소폭에 그쳤다는 것. 이걸 단순히 "옵션이 늘었다"로 넘기긴 어렵다. 사용하는 쪽 입장에선 언제 믿을지 를 매번 새로 정해야 하는 모델이기 때문이다.

OpenAI 발표문에는 이 숫자가 등장하지 않는다. 공식 시스템 카드엔 어떤 평가가 실렸는지 아직 다 읽지 못했지만, 발표 페이지의 서사와 외부 평가 사이엔 명확한 톤 차이가 있다.

안전 이야기

GPT-5.5 시스템 카드에 따르면 이 모델은 Preparedness Framework에서 사이버보안과 생물/화학 영역을 모두 High 로 분류했다. GPT-5.4 Thinking도 이미 두 영역에서 High였으니 티어 자체가 올라간 건 아니지만, GPT-5.5 Deployment Safety Hub는 "GPT-5.4 대비 사이버 역량이 한 단계 강해졌다"고 명시한다. Critical은 아직 아니다.

대응은 이렇다. GPT-5.2 때부터 도입한 사이버 특화 세이프가드를 한 단계 더 조였고, 고위험 요청에 대한 분류기를 강화했다. 반대로 검증된 방어자 들에게는 chatgpt.com/cyber를 통한 Trusted Access for Cyber 프로그램으로 접근권을 넓힌다. 중요한 인프라 방어 담당자에겐 GPT-5.4-Cyber 같은 사이버-퍼미시브 모델을 별도 경로로 제공한다.

이 구조는 내가 보기에 현실적이다. 방어와 공격의 비대칭을 그대로 두면 공격자가 이기니까, 방어자에게 먼저 고성능 도구를 쥐여주는 방향이다. 다만 "검증된 방어자"의 기준이 얼마나 투명하게 운영될지는 두고 봐야 한다.

이 업데이트 페이스를 어떻게 봐야 할까

최근 6개월 사이 OpenAI의 출시 리듬이 눈에 띄게 짧아졌다. 2025년 11월 19일에 GPT-5.1-Codex-Max, 12월 11일에 GPT-5.2, 그리고 2026년 3월 5일에 GPT-5.4, 이번 4월 23일에 GPT-5.5. 사실상 분기마다 본선 모델이 한 번씩 올라오는 셈이다. TechCrunch는 이 속도를 "AI 슈퍼앱에 한 걸음 더"라고 표현했다. 마케팅 용어 같긴 하지만, 출시 리듬만 보면 틀린 말은 아니다.

경쟁자들도 가만히 있진 않는다. Anthropic의 Claude Opus 4.7은 SWE-Bench Pro에서 여전히 강하고, 다른 평가(SWE-Bench Pro Public)에서는 GPT-5.5보다 앞서는 경우도 있다. Google Gemini 3.1 Pro는 BrowseComp에서 85.9%로 GPT-5.5 본체(84.4%)를 근소하게 앞선다. 즉 모든 항목에서 압도적 이진 않다. 모델마다 강점이 다르고, 실무에선 여러 모델을 조합해 쓰는 흐름이 굳어지고 있다.

내가 실제로 해볼 것

이 글을 쓰면서 내가 다음 주말에 시도해볼 것들을 정리했다.

Codex 400K 컨텍스트로 내 사이드 프로젝트 리팩터 태우기. 지금까지 5.4로 여러 번 나눠 돌렸던 작업을 한 번에 밀어넣고 토큰 사용량을 기록해볼 생각이다. "적은 토큰으로 끝낸다"는 주장이 내 코드베이스에서도 맞는지 확인하려면 이게 가장 빠르다.
긴 문서 요약·분석 태스크로 GPT-5.5와 Opus 4.7 A/B 돌려보기. 특히 "모르는 걸 모른다고 말하는지"를 보고 싶다. AA-Omniscience 수치가 내 유즈 케이스에서도 나타나는지 궁금하다.
Pro API는 한 번 싸게 안 써볼 것이다. $30/$180은 심리적 저항선을 넘는 가격이다. 필요한 순간이 오기 전까진 GPT-5.5 본체로 버틸 예정이다.