🔥 ChatGPT Images 2.0 출시 — 이미지 생성의 기준선이 옮겨갔다

#OpenAI#ChatGPT#이미지 생성#AI#제품 발표

1262자

16분

강의 목차

무슨 일이 있었나
왜 이게 중요한가
어디까지 왔는지 잠깐 되짚으면
가격과 접근
한계, 그리고 기다려야 하는 것들
내 생각
참고 자료

ChatGPT Images 2.0 공식 발표 포스터 — 편집 디자인 스타일의 기하학 포스터
출처: Introducing ChatGPT Images 2.0 — OpenAI (ChatGPT Images 2.0으로 생성)

어제 저녁에 OpenAI 라이브스트림을 틀어놓고 커피를 내리는데, Sam Altman이 무심하게 한 마디를 던졌다. "gpt-image-1에서 gpt-image-2로 간 도약은 GPT-3에서 GPT-5로 가는 것과 비슷하다." 이미지 모델 얘기였다. 나는 물을 끓이다 말고 잠깐 멈췄다.

과장이라고 생각했다. 그런데 오늘 아침까지 여러 사람이 이 모델을 돌려본 결과를 찾아 읽어보니, 그 과장이 그냥 과장은 아니었다. 일단 내가 본 한에서는 그렇다.

무슨 일이 있었나

ChatGPT Images 2.0은 2026년 4월 21일에 공개됐다. 새 모델 이름은 gpt-image-2. 1년 전 4o 이미지 생성이 지브리 스타일 때문에 바이럴을 탔던 그 시점과는 분위기가 좀 다르다. 이번엔 "예쁘게 그려준다"가 아니라 "제대로 만들어준다"에 가깝다. OpenAI 자신의 표현으로는 rendering에서 strategic design으로 이동했다고 한다.

바뀐 핵심을 내가 본 대로 정리하면 이렇다.

텍스트 렌더링과 다국어. 이게 제일 눈에 띈다. 기존 모델은 영어 알파벳 아니면 글자가 슬며시 무너지는 경우가 많았다. 작은 라벨, 촘촘한 인포그래픽, UI 스크린샷에서는 특히 그랬다. 2.0은 일본어, 한국어, 중국어, 힌디어, 벵골어에서 의미 있는 개선이 있다고 주장한다. VentureBeat 리뷰는 멀티랭귀지 텍스트, 인포그래픽, 슬라이드, 지도, 만화까지 "거의 결함 없이" 뽑아낸다고 썼다. 수치로 돌려본 외부 분석 가운데 비라틴 문자 텍스트 정확도를 95% 이상으로 보고한 사례도 있었는데(여러 3자 블로그 집계 기준), 공식 벤치마크는 아니라 나는 "눈에 띄게 나아졌다"까지만 믿기로 했다.

Stronger across languages — 여러 언어를 시각적으로 어우른 공식 포스터
출처: Introducing ChatGPT Images 2.0 — OpenAI (ChatGPT Images 2.0으로 생성)

Thinking 모드. OpenAI는 2.0을 "우리의 첫 thinking 이미지 모델"이라고 부른다. Pro 또는 thinking 모델이 선택된 ChatGPT 안에서 활성화되고, 웹 검색으로 최신 정보를 가져오고, 한 프롬프트로 서로 다른 8장까지 생성하고, 자기 출력을 스스로 검증한다. 이걸 읽으면서 나는 좀 웃었다. 이미지 생성에 "자기 점검" 개념이 들어오는 건 처음 보는데, 생각해 보면 당연한 수순이다. 왜 진작 안 했지 싶을 정도로.

다만 업계 최초는 아니다. WAN 2.7도 thinking 모드가 이미 있다. OpenAI의 "첫"은 자사 이미지 라인업 안에서의 "첫"이라고 읽는 게 맞다.

종횡비와 해상도. 3:1 초광각부터 1:3 세로까지 프롬프트 안에서 지시할 수 있다. API 문서를 뒤져 보니 긴 변 3840px까지 지원한다(대략 4K급). 다만 2560×1440을 넘는 해상도는 experimental로 분류돼 결과가 일관되지 않을 수 있다고 명시돼 있다. 나는 이걸 배너나 모바일 스토리 포맷에 바로 꽂아 쓸 수 있다는 점이 반갑다. 지금까지는 결과물 받아서 크롭하거나, 1:1 결과를 억지로 늘리는 일을 많이 했기 때문이다.

Codex 안으로 들어왔다. 얼마 전에 공개된 "Codex for (almost) everything" 업데이트에서 이미지 생성이 Codex CLI에 바로 붙었다. API 키를 따로 안 만들어도 ChatGPT 구독만 있으면 쓸 수 있다는 점이 개인 개발자 입장에서는 은근히 중요하다. UI 목업, 아이콘, 배너, 스프라이트 시트 같은 걸 터미널 밖으로 튕겨 나가지 않고 처리할 수 있다는 얘기다.

왜 이게 중요한가

한 줄로 말하면, 이미지 생성이 "예쁘게 그리기"에서 "설계하기"로 건너갔다는 선언이다. 나는 OpenAI가 발표 글 맨 앞에 놓아둔 한 줄이 마음에 걸렸다. "Images are a language, not decoration." 이미지는 장식이 아니라 언어다. 좋은 이미지는 좋은 문장처럼 선택하고, 배치하고, 드러내는 거라고.

이 문장을 그냥 카피 라이팅으로 읽을 수도 있다. 그런데 thinking 모드의 설계를 보면, 이게 진심이라는 생각이 든다. 한 장을 멋있게 뽑는 게 아니라, 여러 장을 일관성 있게 기획한다. 등장 인물 연속성, 제품 목업 세트, 동일 브랜드의 멀티 종횡비 소셜 그래픽. 예전에는 이걸 하려면 사람이 8번 프롬프트를 치고, 8번 결과를 비교하고, 8번 이어 붙였다. 이제 그 중간 과정을 모델에 떠넘길 수 있다. 작업이 한 단계 위로 올라간다.

현실 세계 정보와 붙는 부분도 작지 않다. knowledge cutoff가 2025년 12월이라 정보성 인포그래픽, 교육 자료, 비주얼 서머리 같은 작업에서 더 정확하게 동작한다고 한다. "visual thought partner"라는 표현이 처음엔 마케팅 용어 같았는데, 웹 검색 결과와 추론이 실제로 이미지 구조를 설계하는 흐름을 보면 딱 맞는 말이긴 하다.

Canva의 Dwayne Koh가 인용문에서 이런 말을 했다. "우리를 가장 놀라게 한 건 모델이 추가한 디테일이다. 우리가 고려조차 안 한 요소를 넣었다. 예를 들면 '바이럴 온 TikTok' 스티커 같은 것. 모델이 그냥 이미지를 렌더링하는 게 아니라, 브리프를 해석하고 청중을 이해하고 뒤에서 크리에이티브 의사결정을 내리고 있었다." 나는 이 문장이 과장이 아니라면, 2026년 중반쯤 에이전시의 제안서 초안 업무는 꽤 흔들리겠다고 생각했다.

어디까지 왔는지 잠깐 되짚으면

1년 전인 2025년 3월 25일, OpenAI는 GPT-4o 이미지 생성을 공개했다. 그때는 "모델이 ChatGPT 안에서 그림을 그린다"는 사실 자체가 사건이었다. 지브리 스타일 필터가 트위터를 점령했고, 한 주 만에 130만 명이 아니라 1억 3천만 명이 이 기능을 썼고, 생성된 이미지는 7억 장을 넘었다(OpenAI 공식 집계). Sam Altman이 X에서 "GPU가 녹고 있다"고 썼던 그 시점이다.

그 뒤로 1년이 지나는 동안 경쟁은 상당히 복잡해졌다. Midjourney v8.1은 여전히 미적 감각에서 앞서 있다는 평가를 받는다. Google 쪽은 2026년 시점 주력으로 Gemini 3 Pro Image(일명 Nano Banana 2)를 밀고 있다. Flux 2, MAI Image 2, WAN 2.7 같은 이름들이 각자의 자리를 잡았다. 지난해의 "DALL-E vs Midjourney" 구도는 이미 낡았다.

이 판에서 gpt-image-2의 포지션은 명확한 편이다. ChatGPT, Codex, API를 하나의 워크벤치처럼 묶어서 "아이디어에서 결과물까지 한 창에서" 가는 생산 파이프라인 자리를 노린다. 순수 비주얼 아름다움은 Midjourney에 양보하더라도, "무엇을 왜 만드는가"를 이해하는 쪽으로 정렬한다. Simon Willison의 초기 테스트는 재미있게 풀렸다. "where's the raccoon with the ham radio" 프롬프트를 기본 설정으로 돌렸을 때는 너구리가 쉽게 드러나지 않았고, 고해상도 3840×2160 설정으로 다시 시도해서 13,342 토큰(약 $0.40)을 써서야 제대로 된 결과가 나왔다. 그럼에도 그는 "지금 시점에서는 Gemini로부터 왕관을 가져왔다"고 평했다. "지금 시점에서는"이라는 단서가 붙어 있었다는 점은 기억해둘 만하다.

가격과 접근

가격은 OpenAI API 페이지 기준으로 토큰화돼 있다. gpt-image-2는 입력 텍스트 $5/M, 입력 이미지 $8/M, 출력 이미지 $30/M 토큰. 개별 이미지 과금으로 환산하면 1024×1024 고품질 한 장이 대략 $0.21 근처, 1024×1536 저품질 한 장이 $0.005 근처에서 움직인다고 OpenAI 이미지 생성 문서에 나와 있다. 숫자만 보면 만만하진 않지만, thinking 모드를 써서 한 번에 8장을 뽑고 재프롬프트 횟수가 줄어든다면 실질 비용은 따로 계산해야 한다.

ChatGPT 쪽에서는 Free 유저도 표준 모델은 쓸 수 있고, thinking 모드와 긴 추론, 생성 내 웹 검색은 Plus, Pro, Business 구독자 전용이다.

한계, 그리고 기다려야 하는 것들

OpenAI 자체도 한계를 명시했다. 일관된 물리 세계 모델이 필요한 작업, 오리가미 가이드, 루빅스 큐브, 가려지거나 비스듬하거나 뒤집힌 면의 디테일에서 여전히 흔들린다. 매우 촘촘한 반복 패턴(모래알 같은)도 한계선이다. 화살표가 중요한 라벨·다이어그램은 여전히 사람이 리뷰해야 한다.

Hacker News 쓰레드에서는 자기 이미지를 복제하는 듯한 사례가 공유됐고, 모델이 자신이 만든 시각 퍼즐을 스스로 풀지 못하더라는 관찰도 있었다. thinking 모드가 만능은 아니다. 게다가 2560×1440을 넘는 해상도는 API에서 experimental로 표시돼 결과가 일관되지 않을 수 있다는 공지도 있다.

내 생각

나는 오늘 두 가지를 테스트해 볼 생각이다. 하나는 한국어 텍스트가 촘촘히 들어가는 인포그래픽 한 장. 지금까지 gpt-image-1으로 한국어 UI 목업을 뽑으면 열에 두세 번은 받침이 무너지거나 글자 배치가 이상했다. 2.0이 그 부분을 얼마나 고쳤는지는 직접 돌려보기 전에 판단을 유보해두려 한다.

다른 하나는 같은 브랜드 톤으로 세 가지 종횡비 포스터를 한 번에 뽑는 것. thinking 모드의 진짜 가치는 이런 "배치로서의 이미지"에서 드러날 것 같다. 여태까지 나는 디자이너에게 "이 분위기로 세 가지 비율 부탁해요"라고 말하고 며칠을 기다리는 워크플로에 익숙해져 있었는데, 그 전제 자체가 바뀌려는 게 아닐까 하는 의심이 든다.

확신은 아직 없다. 공식 발표는 언제나 좋은 각도만 비춰주고, 실사용에서는 다른 얘기가 나오기 마련이다. 그럼에도 이 릴리스를 보고 있으면, 작년 4o 이미지 생성이 등장했을 때 느꼈던 그 "판이 한 번 흔들린다"는 감각이 다시 왔다. 이미지 하나를 예쁘게 뽑는 시대는 이제 주류가 아니다. 여러 장을 일관되게 설계하고, 정확하게 쓰이는 것을 기대하는 쪽으로 기준선이 옮겨가고 있다.

적어도 오늘부터는 그렇게 생각하려고 한다.