🔥 OpenAI는 왜 Realtime 음성을 셋으로 나눴을까

#AI#OpenAI#voice-AI#Realtime API#GPT-Realtime-2

1561자

18분

강의 목차

2026년 5월 7일 OpenAI가 내놓은 것
왜 셋으로 나눴나
GPT-Realtime-2는 1.5보다 얼마나 나아졌나
개발자가 먼저 만지는 변화
Translate와 Whisper는 어디에 맞나
음성 에이전트를 만드는 쪽이 바로 바꿀 것
참고 자료

GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 세 모델이 OpenAI Realtime API 안에서 추론, 번역, 전사 역할을 나눠 가진 구도

어제 새벽에 OpenAI 의 Realtime API 발표가 떴다. 본문을 끝까지 읽고서야 평소와 다른 게 보였다 — 모델이 하나가 아니라 셋이었다.

나는 이런 발표가 나오면 먼저 성능표부터 훑는다. 이번에도 그랬다. 그런데 끝까지 읽고 나니 기억에 남은 것은 점수표보다 모델이 셋으로 나뉜 구성이다. OpenAI 는 음성 추론, 번역, 전사를 한 모델에 몰아넣지 않고 각 모델에 따로 맡기기 시작했다.

2026년 5월 7일 OpenAI가 내놓은 것

2026년 5월 7일 OpenAI 는 발표 원문에서 Realtime API 용 음성 모델 3종을 함께 공개했다 (2026-05-08 확인). 이름은 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 다. 셋 다 같은 Realtime API 안에서 바로 쓸 수 있다.

세 모델은 이름만 다른 옵션이 아니라 맡은 일이 다르다. GPT-Realtime-2 는 음성 대화 안에서 추론과 도구 호출을 맡는다. GPT-Realtime-Translate 는 말을 다른 언어로 실시간 번역한다. GPT-Realtime-Whisper 는 스트리밍 전사를 맡는다 (2026-05-08 확인).

셋이 모두 Realtime API 안에 들어왔다는 점도 중요하다. OpenAI 가 아예 다른 플랫폼을 새로 꺼낸 것은 아니다. 같은 실시간 세션 위에서 어떤 일을 어느 모델에 맡길지 고르는 방식으로 제품 설명을 바꿨다. 그래서 이번 변화는 새 기능 추가보다 모델 선택 기준 변경에 가깝다.

이 발표를 그대로 읽으면 새 모델 3개가 추가된 소식처럼 보인다. 그런데 실제로는 제품 경계가 바뀐 소식에 더 가깝다. OpenAI 는 이제 음성 제품을 하나의 범용 모델로 설명하지 않고, 추론과 번역과 전사를 따로 적기 시작했다. 왜 이렇게 쪼갰는지를 봐야 이번 발표의 뜻이 보인다.

왜 셋으로 나눴나

GPT-Realtime-2 는 토큰 단위 가격으로, GPT-Realtime-Translate 와 GPT-Realtime-Whisper 는 분당 가격으로 책정된 가격표 비교

OpenAI 가 셋으로 나눈 이유는 음성 작업의 과금 단위와 실패 양상이 서로 다르기 때문이다. 기존 gpt-realtime 과 gpt-realtime-1.5 는 음성 입력과 출력, 번역, 전사, 도구 호출을 한 모델 안에 함께 올려 두고 있었다 (2026-05-08 확인). 그 구성은 시작하기는 쉬웠지만, 어떤 작업에 얼마를 내는지 바로 읽기 어려웠다.

추론은 토큰 단위로 값을 매기고, 번역과 전사는 분 단위로 값을 매기는 편이 자연스럽다. 사람 말을 받아 적기만 하는 통화 로그에 추론 토큰 값을 같이 붙이면 팀이 계산표를 한눈에 읽지 못한다. 반대로 예약 변경이나 일정 조회처럼 도구 호출이 중심인 대화는 번역 엔진보다 추론 엔진이 더 중요하다. 이번 발표는 이 다른 일을 같은 모델 안에서 억지로 묶지 않겠다는 선언에 가깝다.

가격 표도 그 차이를 또렷하게 드러낸다. GPT-Realtime-2 는 오디오 토큰 가격으로 적혀 있고, GPT-Realtime-Translate 와 GPT-Realtime-Whisper 는 분당 가격으로 적혀 있다 (2026-05-08 확인). OpenAI 가 어떤 작업을 추론으로 보고, 어떤 작업을 처리량 중심 작업으로 보는지는 가격 단위에서 이미 드러난다. 이 구분은 제품 기획과 예산 계산을 함께 바꾼다.

이전 라인업은 한 모델이 여러 책임을 한꺼번에 떠안고 있었다. 음성 에이전트를 만들 때 개발자는 대화 이해, 언어 전환, 자막, 도구 호출을 한 덩어리로 테스트해야 했다. 이제는 어떤 작업이 본업인지부터 고를 수 있다. 내가 이번 발표를 성능 기사보다 제품 기사로 읽게 된 이유도 여기에 있다.

GPT-Realtime-2는 1.5보다 얼마나 나아졌나

Big Bench Audio 2026 년 5월 스냅샷 — Step-Audio R1.1 97.6%, Grok Voice Think Fast 1.0 97.1%, Gemini 3.1 Flash Live high 96.6%, GPT-Realtime-2 high 96.6%, GPT-Realtime-1.5 81.4%

GPT-Realtime-2 의 추론력은 자기 1.5 대비로는 분명하게 올랐다. OpenAI 는 Big Bench Audio 방법론 기준으로 GPT-Realtime-2 high 가 96.6%, gpt-realtime-1.5 가 81.4% 라고 적었다. 차이는 15.2%포인트다 (2026-05-08 확인).

지시 따르기에서도 숫자는 같이 올랐다. OpenAI 는 Audio MultiChallenge에서 GPT-Realtime-2 xhigh 가 48.5%, gpt-realtime-1.5 가 34.7% 라고 적었다. 차이는 13.8%포인트다 (2026-05-08 확인).

벤치마크 이름이 다르면 읽는 법도 달라야 한다. Big Bench Audio 는 음성 추론을 평가한다. Audio MultiChallenge 는 멀티턴 지시 따르기를 평가한다. 그래서 96.6% 와 48.5% 를 한 줄에 놓고 어느 쪽이 더 높다고 말할 수는 없다. 이번 발표가 보여 주는 것은 두 벤치에서 모두 1.5 보다 올라갔다는 사실이다.

이 수치를 곧바로 업계 1위 신호로 읽어서는 안 된다. Big Bench Audio 와 Audio MultiChallenge 는 서로 다른 벤치마크다. 이 두 숫자만으로 순위를 말할 수는 없다. 이번 발표에서 단정할 수 있는 것은 1.5 대비 큰 폭의 개선이다.

실무에서 먼저 달라지는 것도 점수표보다 모델의 행동 방식이다. OpenAI 가 이번에 손본 것은 목소리 색보다 대화 중간의 일 처리다. 이 변화는 개발자가 먼저 체감하는 부분이다.

개발자가 먼저 만지는 변화

GPT-Realtime-2 추론 단계 다섯 단계 — minimal, low, medium, high, xhigh 가 막대 그래프로 나란히 서 있고 low 위에 default 화살표가 표시된 구성

개발자가 실무에서 먼저 만지는 변화는 컨텍스트와 추론 단계다. GPT-Realtime-2 의 컨텍스트 윈도우는 32K 토큰에서 128K 토큰으로 늘었다. 추론 단계는 minimal, low, medium, high, xhigh 의 5단계고 기본값은 low 다 (2026-05-08 확인).

음성 에이전트에서 빠져 있던 것은 답변 문장보다 중간 행동 설명이었다. GPT-Realtime-2 는 짧은 선행 문장을 먼저 말하고, 동시에 여러 도구를 부르고, 그 사실을 사용자에게 바로 말할 수 있다. 일정 확인이나 조회를 할 때 조용히 멎는 대신 지금 무엇을 하는지 짧게 알려 준다는 뜻이다. 요청 처리에 실패하면 아예 침묵하는 대신 처리에 문제가 있다고 답하는 회복 동작도 들어갔다 (2026-05-08 확인).

실무에서는 이 차이를 데모보다 더 크게 느낀다. 항공 일정 변경이나 캘린더 조회처럼 도구를 여러 개 부르는 대화에서는 모델이 지금 조회 중인지, 실패했는지, 다시 시도하는지 바로 드러나야 한다. 예전 음성 데모는 답이 자연스럽게 들리면 끝나는 경우가 많았다. 이번 발표는 그 중간 동작을 제품 설명의 앞쪽에 둔다.

이 변화는 말투보다 행위에 가깝다. 발표문은 Zillow 내부 adversarial 평가에서 통화 성공률 69% 와 95% 를 함께 적었다. 공정 주거 규정 준수 성능도 더 낫다고 덧붙였다. 외부 검증 수치는 아니지만, 도구 호출 안정성과 안전 장치가 실제 업무에서 왜 중요한지 보여 주는 사례로는 충분하다 (2026-05-08 확인).

공식 Realtime API 가이드와 Realtime API Playground도 같은 방향을 보여 준다. 가이드는 WebRTC 세션을 열고 모델을 붙이는 기본 구조를 설명한다. Playground 는 같은 세션에서 어떤 모델을 올릴지 바로 고르게 한다 (2026-05-08 확인). 발표문이 Codex 앱 예시를 함께 넣은 것도 그 때문이다. OpenAI 는 이제 음성 인터페이스를 말하기 기능보다 일 처리 기능으로 설명한다.

Translate와 Whisper는 어디에 맞나

들어오는 음성이 라우터를 거쳐 GPT-Realtime-Whisper 전사 라인, GPT-Realtime-2 추론 라인, GPT-Realtime-Translate 번역 라인 세 갈래로 갈라지는 음성 에이전트 구성도

번역과 전사를 따로 뺀 이유는 추론 토큰 값을 내지 않아도 되는 작업이 많기 때문이다. GPT-Realtime-Translate 는 70+ 입력 언어를 받아 13개 출력 언어로 번역하고 분당 $0.034 를 받는다. GPT-Realtime-Whisper 는 스트리밍 전사를 맡고 분당 $0.017 를 받는다 (2026-05-08 확인).

GPT-Realtime-Translate 는 다국어 상담, 교육, 이벤트 같은 작업에서 바로 쓸 수 있다. 발표문은 어떤 13개 출력 언어를 지원하는지 적지 않았다. 그래서 어떤 언어가 빠졌는지 미리 짐작해 적을 수는 없다. 지금 말할 수 있는 것은 입력 폭보다 출력 폭이 좁다는 사실뿐이다 (2026-05-08 확인).

BolnaAI 사례도 이 모델의 쓰임을 보여 준다. 발표문은 힌디어, 타밀어, 텔루구어 평가에서 GPT-Realtime-Translate 의 단어 오류율이 12.5% 낮았다고 적었다. 이 수치는 BolnaAI 자체 평가이고, 비교 대상 모델 이름은 본문에 나오지 않는다. 그래서 외부 공인 기록처럼 읽을 수는 없지만, 번역 모델을 따로 둔 이유를 설명하는 사례로는 충분하다 (2026-05-08 확인).

GPT-Realtime-Whisper 는 말 내용을 바로 받아 적는 작업에 맞는다. 회의 자막, 강의 자막, 방송 자막, 상담 전사, 의료 상담 기록처럼 답변을 길게 생각할 필요가 없는 환경에서 이 모델이 더 자연스럽다. 전사만 필요한 통화에 추론 모델을 붙이지 않아도 되니 계산도 단순하다.

전사 모델을 따로 두면 팀이 음성 제품 구조를 더 단순하게 짤 수 있다. 화면 자막이나 회의 기록은 Whisper 로 받고, 필요한 일부 대화만 Realtime-2 로 넘기면 된다. 모든 음성을 처음부터 추론 경로에 태우지 않아도 되기 때문이다. 나는 이 분리가 큰 변화라고 본다. 추론이 필요한 구간만 따로 보내도 비용과 장애 원인을 함께 좁힐 수 있다.

음성 에이전트를 만드는 쪽이 바로 바꿀 것

발표문에 빠진 지연 수치 — turn detection, reasoning, speech synthesis 구간 사이의 minimal latency budget, tool call jitter, recovery overhead 항목을 자기 통화 로그로 직접 재라는 안내

음성 에이전트를 만드는 쪽이라면 이제 한 모델에 전부 넣겠다는 생각을 기본값으로 두지 않는 편이 낫다. OpenAI 가 이번에 내놓은 조합은 추론, 번역, 전사를 나눠 쓰는 방식이다. 기능을 먼저 섞기보다, 어떤 대화에서 무엇이 본업인지부터 적는 편이 맞다.

실무 배치도 그 기준에 맞춰 나누는 편이 좋다. 상담 앱이라면 통화 자막은 Whisper, 상담사와 고객 사이 언어 전환은 Translate, 정책 조회와 예약 변경은 Realtime-2 가 맡는 식이다. 이렇게 나누면 실패 원인도 더 빨리 좁힐 수 있다. 번역이 흔들린 것인지, 전사가 흔들린 것인지, 추론이 흔들린 것인지 따로 볼 수 있기 때문이다.

안전 장치도 같은 기준으로 나눠 보는 편이 좋다. OpenAI 는 Realtime API 세션 전체에 활성 분류기가 붙고, 유해 기준을 넘으면 세션을 멈춘다고 적었다. 개발자는 OpenAI Agents SDK guardrails로 자기 규칙을 더 얹을 수 있다. EU Data Residency 지원도 같이 적혀 있으니, 다국어 상담이나 기업용 통화 기록을 다루는 팀은 이 조건을 바로 확인할 만하다 (2026-05-08 확인).

추론 단계는 low 에서 시작하고 꼭 필요한 구간만 올리는 편이 현실적이다. OpenAI 가 공개한 GPT-Realtime-2 가격은 오디오 입력 100만 토큰당 $32, 캐시 입력 $0.40, 오디오 출력 100만 토큰당 $64 다. 이 값은 이전 gpt-realtime 과 같은 수준이다 (2026-05-08 확인). 발표문은 밀리초 단위 지연 수치를 싣지 않았으니, 단계 선택은 자기 통화 로그에서 직접 재야 한다.

마지막 판단 기준은 리더보드보다 자기 통화 녹음 한 묶음이다. OpenAI 의 숫자는 방향을 보여 주지만, 실제 제품 성패는 자기 고객의 말버릇과 도메인 용어와 실패 방식이 좌우한다. 나는 어젯밤까지 이 발표를 Realtime-2 점수 기사로 읽었다. 지금은 OpenAI 가 음성 제품을 추론, 번역, 전사로 나눠 다시 배치한 날로 읽는다. 다음에 음성 에이전트 초안을 잡을 때도 먼저 어느 모델이 가장 똑똑한지보다, 어떤 일을 어느 모델에 맡길지부터 적을 생각이다.

참고 자료

Advancing voice intelligence with new models in the API (OpenAI): 이 글의 원전. 모델 3종 발표문, 가격, 벤치마크 수치, Zillow / BolnaAI 인용이 모두 여기에 있다.
Realtime API with WebRTC (OpenAI Developer Docs): Realtime API 를 WebRTC 로 붙이는 공식 가이드. SDP + session multipart 패턴이 적혀 있다.
Realtime API Playground: 새 모델 셋을 브라우저에서 바로 굴려 볼 수 있는 실험 환경.
Speech Reasoning Benchmarking Methodology (Artificial Analysis): Big Bench Audio 의 평가 방식과 카테고리 구성 설명. 96.6% 같은 점수의 출처를 보고 싶을 때.
AudioMC Audio Leaderboard (Scale Labs): Audio MultiChallenge 멀티턴 지시 따르기 벤치마크의 공식 리더보드.
OpenAI Agents SDK guardrails: Realtime API 위에 자기 안전 규칙을 얹을 때 쓰는 SDK 문서.