🔥 Qwen3.6-27B: dense 27B가 MoE 397B를 이긴다

#qwen#llm#open-source#coding-agent#ai

918자

11분

강의 목차

무엇이 이겼다는 건가
왜 하필 dense, 왜 하필 27B
Qwen3.6 라인업의 맥락
실제로 붙여 보기
숫자의 함정과 사람의 감각
이번 주말의 계획
참고 자료

새벽에 Qwen 블로그를 열었다가 커피잔을 내려놓았다. "27B dense가 397B MoE를 코딩 벤치에서 이겼다"는 문장을 두 번 읽었다. 단위가 잘못 적힌 줄 알았다.

Alibaba Qwen 팀이 2026년 4월 22일에 공개한 Qwen3.6-27B는 그 이름 그대로 270억 파라미터짜리 dense 모델이다. 전작인 Qwen3.5-397B-A17B는 3,970억 총 파라미터 중 170억이 활성화되는 MoE 모델이었다. 총 파라미터로 따지면 약 15배 차이. 그런데 코딩 에이전트 벤치마크 전반에서 27B가 앞선다고 한다.

이게 진짜 되는 거야?

무엇이 이겼다는 건가

Qwen이 공개한 표를 그대로 옮기면 이렇다.

벤치마크	Qwen3.5-397B-A17B	Qwen3.6-27B
SWE-bench Verified	76.2	77.2
SWE-bench Pro	50.9	53.5
SWE-bench Multilingual	69.3	71.3
Terminal-Bench 2.0	52.5	59.3
SkillsBench Avg5	30.0	48.2
QwenWebBench	1186	1487

SkillsBench에서 48.2 대 30.0, Terminal-Bench에서 59.3 대 52.5. 이건 오차 범위가 아니다. 특히 SWE-bench Verified는 500개짜리 인간 검증 서브셋이다. 실제 GitHub 이슈를 받아 패치를 만들고, 단위 테스트로 통과 여부를 본다. 숫자를 뽑기 쉬운 벤치가 아니다.

Qwen3.6-27B 스코어 요약
출처: Qwen Team

같은 표에서 Qwen은 Claude 4.5 Opus와도 비교한다. Opus 4.5의 SWE-bench Verified 점수는 80.9. 27B가 그걸 따라잡지는 못했다. 하지만 오픈 웨이트 한정으로 보면, 그리고 크기를 감안하면, 이 숫자는 생각보다 무겁다.

왜 하필 dense, 왜 하필 27B

2026년의 프론티어 모델 대부분은 Mixture-of-Experts 구조다. Qwen 자체도 Qwen3.5에서는 총 3,970억 중 170억만 활성화하는 sparse MoE를 주력으로 밀었다. 같은 시리즈 내 오픈소스 sibling인 Qwen3.6-35B-A3B도 350억 중 30억만 활성화되는 MoE다.

MoE는 속도가 빠르다. 같은 하드웨어에서 dense 대비 3에서 5배 토큰을 더 뽑는다. 그런데 메모리는 전체 파라미터를 다 들고 있어야 한다. 350억 MoE를 돌리려면 350억어치 VRAM이 필요하다. 루터가 어떤 전문가를 고를지 모르기 때문이다.

dense의 매력은 거꾸로다. 느리지만 단순하다. 라우팅 실패가 없고, 양자화가 예측 가능하고, 서빙 스택에 이상한 최적화를 끼워 넣지 않아도 된다. 소규모 인프라로 셀프 호스팅하는 팀 입장에서는 270억 dense가 350억 MoE보다 훨씬 편하다. Qwen도 블로그에서 바로 이 얘기를 한다. dense 구조라 MoE 라우팅 복잡성 없이 배포하기가 쉽다고.

27B라는 숫자도 우연이 아닌 것 같다. 최근 오픈 웨이트 씬에서 가장 널리 돌려지는 크기가 20B에서 30B 근처다. Gemma4-31B, DeepSeek 파생 모델들, 각종 파인튜닝 베이스가 이 구간에 몰려 있다. H100 한 장, A6000 두 장, M3 Ultra 한 대. 이 정도 예산으로 "진짜 코드를 짤 수 있는" 로컬 모델을 기다려 온 사람이 많았다. Qwen3.6-27B는 그 수요에 정확히 맞춰 들어온 모델이다.

Qwen3.6 라인업의 맥락

이번 27B는 Qwen3.6 시리즈의 네 번째 모델이다. 타임라인을 정리하면 이렇다.

2026/04/02 — Qwen3.6-Plus API 공개
2026/04/16 — Qwen3.6-35B-A3B 오픈 웨이트 공개
2026/04/20 전후 — Qwen3.6-Max-Preview closed-weights로만 공개
2026/04/22 — Qwen3.6-27B dense 오픈 웨이트 공개

흥미로운 건 Max-Preview다. 이번 라인업의 최상위 모델이 closed-weights(hosted proprietary)로만 나왔다. 중국 진영이 오픈소스 전선에서 한 걸음 물러서는가 싶었는데, 며칠 뒤에 27B dense를 오픈 웨이트로 풀었다. "최상위는 닫고, 실용 구간은 확실히 연다"는 시그널로 읽힌다.

실제로 붙여 보기

블로그에서 가장 흥미로웠던 건 Claude Code 통합 스니펫이다. Anthropic이 만든 Claude Code CLI에 Qwen3.6-27B를 끼워 넣을 수 있다. Qwen API가 Anthropic 프로토콜 호환을 지원하기 때문이다.

bash

# Node.js 18+
npm install -g @anthropic-ai/claude-code
 
# Qwen Model Studio 엔드포인트로 재바인딩
export ANTHROPIC_MODEL="qwen3.6-27b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
 
claude

bash

# Node.js 18+
npm install -g @anthropic-ai/claude-code
 
# Qwen Model Studio 엔드포인트로 재바인딩
export ANTHROPIC_MODEL="qwen3.6-27b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
 
claude

환경 변수 네 줄로 끝난다. 평소 Claude Code로 Opus를 돌리던 워크플로를 그대로 두고, 모델만 Qwen3.6-27B로 바꿔 테스트해 볼 수 있다. OpenClaw나 자체 CLI인 Qwen Code도 같은 API 뒤에 붙는다.

개인적으로는 이게 제일 현실적인 사용법이라고 본다. 모델 자체를 Hugging Face에서 받아 서빙 스택을 짜는 건 팀 단위 작업이다. 개인 개발자 관점에서 "오늘 저녁에 한번 돌려 본다"고 하면, API 뒤에서 맛보기부터 하는 게 맞다. 만족스러우면 그때 셀프 호스팅을 검토하면 된다.

API 쪽에서 또 눈에 띄는 건 preserve_thinking 옵션이다. 여러 턴에 걸친 에이전트 작업에서, 앞선 턴의 reasoning trace를 다음 턴으로 넘기는 기능이다. Qwen은 "에이전트 태스크에서 권장된다"고 명시적으로 적어 뒀다. 멀티턴 도구 사용 워크플로를 많이 짜는 쪽이라면 이 플래그의 유무가 체감 차이를 만들 수 있다.

숫자의 함정과 사람의 감각

벤치마크 숫자에 너무 들뜨지 않으려고 한다. SWE-bench Verified 77.2는 Opus 4.5의 80.9보다 약 4점 낮다. 그사이 Anthropic은 4.5를 넘어 Opus 4.7까지 진도를 뺐다. 외부 리포트 기준으로 Opus 4.7의 SWE-bench Verified는 87점대로 보고된다. 오픈 웨이트가 클로즈드 웨이트를 수치로 완전히 따라잡았다고 말하려면 아직 거리가 남아 있다.

그래도 맥락은 달라졌다. 작년만 해도 로컬에서 "코딩 에이전트가 쓸 만한" 오픈 모델이 거의 없었다. 이제는 27B dense 한 장으로 SWE-bench 77점대를 찍는다. "오픈 모델은 프로토타이핑, 프로덕션은 클라우드 API"라는 이분법이 흔들리기 시작한다.

그리고 나는 의심도 챙긴다. Qwen 사내에서 만든 QwenWebBench, QwenClawBench에서 점수 차가 유독 크다. SkillsBench 48.2 대 30.0 격차도 눈을 잡아 끄는데, 이건 Qwen이 OpenCode 위에서 고른 78개 자체 선정 서브셋으로 돌린 수치라는 점을 기억할 필요가 있다. 학습 분포와 평가 분포가 잘 겹칠수록 이런 숫자가 잘 나온다. 외부 공개 벤치인 SWE-bench Verified와 Terminal-Bench 2.0 쪽 격차가 상대적으로 작다는 점을 같이 봐야 공정하다.