🔥 Qwen3.6-35B-A3B — 3B 활성 파라미터로 코딩 에이전트의 판을 뒤집다

#Qwen#MoE#오픈소스 LLM#코딩 에이전트#SWE-bench

824자

11분

강의 목차

35B 중 3B만 쓴다 — MoE가 만드는 효율
벤치마크 — 숫자가 말해주는 것들
노트북에서 돌린다 — 실제 사용법
2026년 4월, 오픈소스 코딩 모델 경쟁 구도
솔직한 생각
참고 자료

Simon Willison이 자기 맥북에서 돌린 모델로 Claude Opus 4.7보다 나은 펠리컨 그림을 뽑아냈다는 글을 봤다. 농담 같지만 진짜다. 20.9GB짜리 양자화 모델을 LM Studio에 올려서 로컬에서 실행한 결과물이 클로즈드 모델의 최상위 티어를 이겼다. 그 모델이 바로 Qwen3.6-35B-A3B다.

물론 펠리컨 그리기는 Willison 본인도 말했듯이 반쯤 농담인 벤치마크다. 하지만 이 모델이 주목받는 이유는 그림 실력이 아니라, 활성 파라미터 3B로 코딩 에이전트 벤치마크에서 10배 큰 모델과 겨루는 성능을 보여줬기 때문이다.

35B 중 3B만 쓴다 — MoE가 만드는 효율

알리바바의 Qwen 팀이 2026년 4월 15일에 공개한 Qwen3.6-35B-A3B는 Mixture-of-Experts(MoE) 아키텍처를 사용한다. 전체 파라미터는 35B이지만, 추론 시 실제로 활성화되는 파라미터는 3B에 불과하다. 나머지 32B는 전문가(expert) 네트워크로 나뉘어 있고, 입력 토큰에 따라 가장 적합한 전문가 집합만 선택적으로 활성화된다.

이게 왜 중요한가. 단순하게 말하면 연산량은 3B 모델 수준이고, 지식 용량은 35B 모델 수준이라는 뜻이다. GPU 메모리와 전력 소비는 소형 모델에 가깝지만, 벤치마크 점수는 중대형 모델과 겨루는 구조다. 이전 세대인 Qwen3.5-35B-A3B에서 아키텍처 자체는 동일하지만, 학습 데이터와 강화학습 파이프라인에서 상당한 개선이 있었다.

라이선스는 Apache 2.0이다. 상업적 사용에 제한이 없다.

벤치마크 — 숫자가 말해주는 것들

Qwen3.6-35B-A3B 벤치마크 성능 차트
출처: Qwen Blog

코딩 에이전트 벤치마크 결과부터 보자. 괄호 안은 비교를 위한 다른 모델들의 점수다.

SWE-bench Verified — 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크에서 73.4를 기록했다. 전작 Qwen3.5-35B-A3B(70.0)를 넘었고, 활성 파라미터가 10배인 dense 모델 Gemma4-31B(52.0)는 20포인트 이상 앞선다. 같은 팀의 dense 모델 Qwen3.5-27B(75.0)에는 약간 못 미치지만, 활성 연산량 차이를 생각하면 놀라운 결과다. (verified 2026-04-17)

Terminal-Bench 2.0 — 터미널 환경에서의 에이전트 작업 능력을 측정하는 벤치마크다. 여기서는 51.5로 비교 대상 전부를 제쳤다. Gemma4-31B(42.9), Qwen3.5-27B(41.6)까지 모두 뒤로 밀었다. (verified 2026-04-17)

NL2Repo(자연어에서 리포지토리 생성)에서 29.4, QwenWebBench(프론트엔드 코드 생성) ELO 1397, MCPMark(MCP 도구 사용 능력) 37.0으로 세 벤치마크 모두 비교군 중 최고 점수를 기록했다.

다만 모든 영역에서 완승한 것은 아니다. TAU3-Bench(범용 에이전트, 67.2)와 VITA-Bench(35.6)처럼 범용 에이전트 작업에서는 dense 모델이 여전히 우위를 보인다. Gemma4-31B는 VITA-Bench에서 43.0을 기록하며 격차를 벌렸다. 수학과 추론 벤치마크(AIME26 92.7, GPQA 86.0)에서는 Qwen3.5-27B와 거의 동등하다.

멀티모달도 빠지지 않는다. 이 모델은 텍스트뿐 아니라 이미지, 비디오 입력을 네이티브로 지원한다. MMMU 81.7, RefCOCO 92.0, ODInW13 50.8로 비전 벤치마크에서 Claude Sonnet 4.5와 대등하거나 상회하는 성능을 보여준다. 활성 파라미터 3B 모델이 이 정도 멀티모달 성능을 내는 건 상당히 이례적이다.

노트북에서 돌린다 — 실제 사용법

이 모델의 가장 매력적인 부분은 로컬 실행 가능성이다. Unsloth에서 제공하는 GGUF 양자화 버전을 쓰면, 22GB RAM이 있는 Mac에서 구동할 수 있다. Simon Willison이 테스트한 환경도 MacBook Pro M5 + LM Studio였고, 20.9GB짜리 양자화 모델로 충분한 성능을 뽑아냈다.

코딩 에이전트로 쓰려면 몇 가지 경로가 있다.

Qwen Studio에서 바로 사용 — 브라우저에서 로그인만 하면 된다.

API 호출 — Alibaba Cloud Model Studio API에서 qwen3.6-flash라는 이름으로 제공된다. OpenAI 호환 프로토콜을 지원하고, Anthropic API 프로토콜까지 호환되기 때문에 기존 코드를 거의 수정 없이 붙일 수 있다.

Claude Code와 연동 — Anthropic API 호환 덕분에 환경 변수만 바꾸면 된다.

bash

export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude

bash

export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
claude

OpenClaw과 통합 — 오픈소스 코딩 에이전트인 OpenClaw에서도 Model Studio를 백엔드로 설정하면 바로 사용할 수 있다. Qwen Code라는 자체 코딩 에이전트도 제공한다.

이 모델의 preserve_thinking 기능도 눈에 띈다. 멀티턴 대화에서 이전 턴의 사고 과정을 보존하는 기능인데, 에이전트 작업에서 맥락을 잃지 않기 위한 장치다.

2026년 4월, 오픈소스 코딩 모델 경쟁 구도

Qwen3.6-35B-A3B가 등장한 시점의 오픈소스 코딩 모델 경쟁은 치열하다.

NVIDIA Nemotron-Cascade 2가 30B MoE / 3B 활성 파라미터로 비슷한 포지션을 노리고 있다. GLM4.7-Flash도 30B급 MoE로 SWE-bench Verified 73.8을 기록하며 강력한 경쟁자로 자리잡았다. Google의 Gemma4-31B는 dense 모델이지만 256K 컨텍스트 윈도우와 PLE(Parallel Linear Experts) 아키텍처로 차별화를 시도한다.

트렌드가 보인다. 30B~35B 총 파라미터에 3B~4B 활성 파라미터를 가진 MoE 모델이 하나의 카테고리를 형성했다. 이 모델들이 겨냥하는 것은 동일하다. "소비자용 GPU 하나로 돌릴 수 있으면서, 에이전트 코딩 작업에서 실용적인 성능을 내는 모델."

경쟁이 단순히 벤치마크 숫자 싸움에 머물지 않는다는 점도 흥미롭다. Qwen은 OpenClaw, Claude Code, Qwen Code와의 통합 가이드를 공식 블로그에 포함했다. 모델 성능만큼 "어떤 에이전트 도구와 얼마나 쉽게 연동되는가"가 경쟁의 핵심 축이 되고 있다.

솔직한 생각

활성 파라미터 3B로 SWE-bench Verified 73.4를 찍었다는 것 자체가 1년 전이었으면 믿기 어려운 수치다. 2025년 초에 70점대를 넘기려면 수백 B 파라미터급 클로즈드 모델이 필요했는데, 이제 노트북에서 돌아가는 오픈소스 모델이 그 영역에 들어왔다.

다만 벤치마크 숫자와 실사용 사이에는 항상 간극이 있다. Terminal-Bench에서 1위를 했다고 해서 모든 터미널 작업을 완벽하게 처리하는 건 아니다. TAU3-Bench나 VITA-Bench에서 dense 모델에 밀리는 결과도 있다. MoE의 구조적 특성상 전문가 라우팅이 잘 작동하는 영역(코딩, 수학)에서는 강하지만, 범용적인 에이전트 작업에서는 dense 모델의 균일한 성능이 유리할 수 있다.

그래도 방향은 확실하다. 이번 주말에 Unsloth GGUF 버전을 내려받아서 사이드 프로젝트에 붙여볼 생각이다. 20GB 정도면 내 Mac에서도 돌릴 수 있고, OpenClaw 연동까지 해보면 클로즈드 API 없이 로컬 코딩 에이전트가 어느 정도 수준인지 직접 확인할 수 있을 것이다. 1년 전에는 상상도 못 했던 세팅이다.