🔥 DeepSeek-V4-Pro 공개: 1.6T MoE와 100만 토큰의 첫인상

#deepseek#llm#moe#open-weight#long-context
1311자
16분

DeepSeek-V4-Pro-Max 벤치마크 및 1M 컨텍스트 효율 차트
출처: DeepSeek-V4-Pro 모델 카드

어젯밤 노트북을 덮으려는데 Slack에 링크 하나가 떨어졌다. 열어봤더니 DeepSeek-V4-Pro 모델 카드였다. 화면을 내리기 시작한 지 10초 만에 다시 커피를 내렸다. 한 달 전까지 V3.2를 뜯어보고 있었는데, 이 회사는 숫자를 이렇게 빨리 갱신해도 되는 건가.

1.6T 파라미터가 MIT 라이선스로 풀렸다

DeepSeek가 공개한 건 두 개의 MoE(Mixture-of-Experts) 모델이다. DeepSeek-V4-Pro는 총 1.6T 파라미터, 토큰당 활성 49B. DeepSeek-V4-Flash는 총 284B, 활성 13B. 둘 다 컨텍스트 길이는 100만 토큰이고, 라이선스는 MIT다.

숫자만 보면 1.6T가 크다는 사실에 눈이 간다. Simon Willison이 정리한 바로는 현재 공개된 오픈 웨이트 중 가장 크다. Moonshot의 Kimi K2.6이 1.1T, GLM-5.1이 754B, 기존 DeepSeek-V3.2가 685B였으니 2배 이상 뛰어올랐다.

다만 활성 파라미터는 49B다. 이게 MoE의 포인트다. 모델을 부를 때 전체 1.6T를 다 읽지 않는다. 토큰당 49B만 활성화돼서 전방 전파에 참여한다. V3.2가 37B 활성이었으니 활성 기준으로도 커졌지만, 그렇게까지 폭발적이지는 않다.

그런데 이 모델이 흥미로워지는 지점은 크기가 아니라 효율이다.

세 가지 설계 축: Hybrid Attention, mHC, Muon

DeepSeek이 직접 꼽은 업그레이드는 세 가지다. 하나씩 뜯어봤다.

Hybrid Attention: CSA + HCA

V4의 어텐션은 하이브리드다. CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 인터리브해서 배치했다. 개념 자체는 작년에 DeepSeek이 낸 Native Sparse Attention 논문에서 이미 보였던 방향이다. NSA는 ACL 2025에서 Best Paper를 받았고, 핵심은 계층적 희소 전략으로 long context를 감당하는 거였다.

V4에서 바뀐 건 CSA와 HCA의 역할 분담이다. CSA는 중요한 토큰을 높은 해상도로 잡는다. HCA는 나머지를 128배 수준으로 알려진 큰 압축률로 훑는다. 일종의 싸구려 글로벌 메모리 경로로, 값싸게 전체 문맥을 흘려보는 용도다. 정밀과 정량을 분리한 설계다.

숫자로는 1M 토큰 컨텍스트 기준, V4-Pro가 V3.2 대비 단일 토큰 추론 FLOPs의 27%, KV 캐시의 10%만 쓴다. 환산하면 FLOPs는 약 3.7배, KV 캐시는 약 10배 줄어든 것이다. 실제 서빙 비용은 두 수치가 복합적으로 작용하지만, 같은 100만 토큰을 다룰 때 계산과 메모리 양쪽이 자리수 단위로 가벼워졌다는 건 분명하다.

참고로 이건 V3.2의 DSA(DeepSeek Sparse Attention)와는 다른 방향이다. 분석 기사들에 따르면 DSA는 Lightning Indexer로 토큰 단위 희소성을 잡았고, V4의 CSA/HCA는 블록 단위에 가깝고 인터리브 구조로 재배치했다.

mHC: 잔차 연결을 매니폴드 위에 가둔다

이 부분은 솔직히 논문 arxiv 2512.24880을 따로 읽어야 했다. mHC(Manifold-Constrained Hyper-Connections)는 기존 Hyper-Connections의 문제를 푸는 방식이다.

Hyper-Connections 자체가 잔차 스트림의 폭을 확장해서 다양한 연결 패턴을 허용하는 방식이었다. 성능은 올라가는데 문제는 원래 잔차 연결이 가졌던 항등 매핑(identity mapping) 속성이 깨진다. 항등 매핑이 깨지면 학습이 불안정해지고, 모델을 키웠을 때 발산하기 쉽다.

논문을 정리한 해설들에 따르면, mHC는 연결 가중치를 Sinkhorn-Knopp 알고리즘으로 doubly stochastic 상태에 가두는 방식이다. 행과 열의 합이 모두 1인 행렬들이 이루는 Birkhoff polytope이라는 매니폴드 위에서만 가중치가 움직인다. 기하학적으로 이 공간의 꼭짓점은 모든 permutation matrix고, 정보가 보존되면서도 재분배될 수 있는 안정적인 이웃을 미리 그려놓고 그 안에서만 놀게 만드는 셈이다.

학습 오버헤드는 약 7% 수준으로 보고되고 있다. 그 대가로 스케일을 키워도 신호 전파가 폭발하지 않는다. 1.6T를 안정적으로 돌리려면 이런 수준의 제약이 필요했던 것 같다.

Muon Optimizer

MuonMoonshot AI의 Kimi 시리즈가 대규모로 밀어붙인 옵티마이저다. 2D 파라미터 업데이트를 두 단계로 한다. SGD-momentum으로 업데이트를 일단 만들고, Newton-Schulz 반복으로 직교화해서 적용한다.

Moonshot 팀의 스케일링 논문 보고로는 AdamW 대비 약 2배의 계산 효율, 즉 같은 성능에 도달하는 데 필요한 FLOPs가 절반 가까이로 떨어진다고 한다. DeepSeek이 V4 사전 학습에 이걸 채택했다는 건 의미가 있다. Kimi의 방법이 1T+ MoE에서 실제로 검증됐다는 뜻이기도 하고, 최적기 경쟁이 Adam 바깥으로 넘어가고 있다는 신호이기도 하다.

32T 토큰과 포스트 트레이닝 레시피

사전 학습 데이터는 32T 토큰이다. V3가 14.8T였으니 2배 정도 더 먹었다.

포스트 트레이닝 파이프라인이 오히려 더 흥미로웠다. 2단계 구조다.

1단계는 도메인별 전문가를 독립적으로 키운다. 수학, 코딩, 에이전트, 지식 도메인을 각각 따로 SFT로 데우고 GRPO(Group Relative Policy Optimization)로 RL을 돌린다. GRPO는 DeepSeek-R1에서 대중화된 방법이다. 각 도메인에서 최고 성능을 내는 전문가 체크포인트가 따로 나온다.

2단계는 on-policy distillation으로 이 전문가들을 하나의 V4에 통합한다. 즉, 각 도메인 전문가의 출력을 현재 정책(V4)이 그대로 따라 하도록 증류하는 방식이다. 전문가 MoE 구조 위에 다시 전문가 증류를 얹는 셈이라, 네이밍은 좀 헷갈린다.

이 접근의 장점은 분명하다. 각 도메인에서 과적합된 전문가를 따로 키울 수 있고, 최종 통합 모델이 도메인 간 간섭을 덜 받는다. 단점은 엔지니어링이 복잡하고, 통합 단계의 증류 품질이 병목이 된다는 점이다.

벤치마크: 어디서 이기고 어디서 지는가

모델 카드에는 V4-Pro의 reasoning effort 세 단계가 따로 공개돼 있다. Non-Think, Think High, Think Max. 가장 강한 DeepSeek-V4-Pro-Max를 Opus-4.6 Max, GPT-5.4 xHigh, Gemini-3.1-Pro High와 비교한 표가 핵심이다.

내가 표를 보면서 메모한 포인트는 이렇다.

  • LiveCodeBench 93.5 — Gemini 91.7, Opus 88.8, V4-Pro가 1등
  • Codeforces Rating 3206 — GPT-5.4가 3168, V4-Pro가 1등
  • Apex Shortlist 90.2 — Opus 85.9, Gemini 89.1, V4-Pro가 1등
  • HMMT 2026 Feb 95.2 — GPT-5.4 xHigh 97.7에 뒤짐
  • GPQA Diamond 90.1 — Gemini 94.3에 뒤짐
  • SWE Verified 80.6 — Opus 4.6 Max 80.8에 0.2 차이로 뒤짐
  • MRCR 1M 83.5 — Opus 92.9에 꽤 뒤짐
  • CorpusQA 1M 62.0 — Opus 71.7에 뒤짐

읽어보면 코드와 알고리즘 문제에선 V4가 앞서고, 순수 지식/추론 최상단은 GPT-5.4와 Gemini가 여전히 단단하다. 특히 long-context 회복(MRCR, CorpusQA 1M)에서 Opus 4.6이 훨씬 앞서 있다는 게 눈에 띈다. 1M 컨텍스트를 "지원한다"와 "꺼낼 수 있다"가 같지 않다는 걸 다시 확인한다.

V4-Flash는 체급이 한 단계 아래다. 모델 카드에 따르면 Flash-Max에 더 큰 thinking budget을 주면 Pro에 견줄 만한 추론 성능이 나오지만, 파라미터가 작으니 순수 지식 작업과 복잡한 에이전틱 워크플로에서 자연히 밀린다. 가성비용 모델이다.

가격이 바꾸는 게임

Simon Willison이 정리한 가격은 이렇다. Flash가 입력 $0.14 / 출력 $0.28 per 1M 토큰, Pro가 입력 $1.74 / 출력 $3.48 per 1M 토큰. Simon은 Flash가 GPT-5.4 Nano보다 싼, 현재 가장 저렴한 소형 모델이고, Pro가 대형 프런티어 라인 중 가장 저렴한 옵션이라고 적었다.

숫자를 풀어서 다시 써보면, 100만 토큰짜리 책 한 권을 V4-Pro에 cache miss 입력으로 쏘는 비용이 $1.74다(캐시 히트 시에는 더 낮아진다). 2023년 GPT-4 8K 기준으로 동일 입력에 $30쯤 들던 걸 생각하면, 가격 곡선이 꺾이는 걸 실시간으로 보고 있다.

게다가 가중치가 MIT 라이선스로 풀렸다. 누구든 서빙해도 되고, 파인튜닝도 자유다. 이게 실제로 API를 쓰는 팀에게 의미하는 바는 "벤더 리스크가 0에 수렴한다"는 것이다. 가격이 오르면 셀프 호스팅하면 된다.

아직 남은 질문들

열광만 하기는 좀 이르다. 몇 가지 판단 유보 지점을 메모해둔다.

첫째, long-context 신뢰도. MRCR 1M에서 Opus가 10점 가까이 앞선다. "1M 입력을 넣을 수 있다"는 것과 "1M 안의 어떤 팩트든 안정적으로 꺼낸다"는 건 다른 문제다. 논문에서는 이 차이를 줄이기 위한 별도 설계가 필요하다고 반복해 지적해 왔고, V4도 아직은 그 벽을 넘지 못한 것 같다.

둘째, creative writing과 어조. 숫자로 잡히지 않는 영역이다. 이 부분에서 Claude가 여전히 더 낫다는 리뷰가 많다(imastudio 리뷰, cybernews). 내가 쓰려는 블로그 글을 뽑아달라고 할 때, V4가 같은 결과를 낼지는 확실하지 않다.

셋째, 엔터프라이즈. 규제 환경에서 중국 기업 모델을 쓰는 건 별도 판단이 필요하다. 가중치가 공개됐으니 로컬 배포로 이 문제를 우회할 수는 있지만, 1.6T 모델을 자체 서빙하려면 하드웨어 벽이 다시 나타난다.

넷째, chat template이 없다. 모델 카드에 명시돼 있듯 Jinja 기반 템플릿을 제공하지 않는다. 대신 별도 encoding 폴더의 Python 스크립트를 써야 한다. 통합하는 쪽 입장에선 한 겹 추가 작업이다.

내가 지금 해보려는 것

이 주말에 DeepSeek-V4-Flash API를 몇 가지 실험에 꽂아볼 계획이다. 가격이 낮으니 망해도 피해가 적고, 1M 컨텍스트라는 전제가 기존에 Claude/GPT로 조각내서 처리하던 긴 코드베이스 문서 요약 시나리오를 재평가할 근거가 된다.

Pro를 쓸 일은 당분간 드물 것 같다. 가격이 저렴하다고 해도 에이전틱 워크플로 품질에서 GPT-5.4나 Opus 4.6을 완전히 대체하기는 이르다. 다만 오픈 웨이트로 풀렸다는 사실 자체가, 6개월 뒤 누군가의 파인튜닝 버전이 내 로컬에서 돌아갈 가능성을 열어놓는다.

V3가 나왔을 때 "DeepSeek이 진짜 프런티어를 건드렸다"는 말이 나왔다. V4-Pro는 그 선을 건드린 정도가 아니라 일부 지표에서는 넘었다. 그러면서도 가격은 내렸고, 가중치는 공개했다. 이 궤적이 어디까지 이어질지는 모르겠지만, 적어도 오픈 모델의 경쟁 압력이 닫힌 모델들에게 확실히 전달되고 있다는 건 분명하다.

오늘 밤은 여기까지 정리하고, technical report PDF는 내일 아침에 마저 읽을 생각이다.

참고 자료

YouTube 영상

채널 보기
숫자 하나가 AI 모델의 운명을 바꾼다? | 선형대수학
투영과 예측, 그리고 선형 결합 | 선형대수학
트라이(Trie) 자료구조: 파이썬으로 삽입(Insert) 연산 구현하기 | Trie 자료구조 이야기
직교성과 벡터 투영 | 선형대수학
벡터의 정의와 덧셈 연산 | 선형대수학
AI 추천 시스템의 원리, 벡터 사이의 각도와 코사인 유사도 | 선형대수학
스칼라 곱셈과 내적의 기하학적 의미 | 선형대수학
트라이(Trie)에서 단어를 삭제하는 방법 | Trie 자료구조 이야기