🔥 OpenMythos: 공개 논문으로 복원한 Claude Mythos 아키텍처 가설

#OpenMythos#Claude Mythos#Recurrent-Depth Transformer#Looped Transformer#Anthropic

1745자

20분

강의 목차

1. Claude Mythos라는 공백
2. 가설의 뼈대: Recurrent-Depth Transformer
3. 루프 안정화: 가설에서 가장 흥미로운 부분
4. 어텐션·MoE·halting: 나머지 구성 요소들
5. 가설을 떠받치는 공개 논문 네 편
6. 써보려면: 간단한 메모
7. 솔직히, 가설이 너무 매끄럽다
8. 그래서 뭐가 남았나
참고 자료

Recurrent-Depth Transformer 구조 — Prelude → Recurrent Block ×T → Coda, 그리고 은닉 상태 갱신 규칙

어젯밤에 GitHub 트렌딩 탭을 무심코 열었다가 OpenMythos라는 리포지토리를 발견했다. 올라온 지 이틀 밖에 안 됐는데 별이 벌써 4천 개를 넘겼다. 설명란을 읽고 커피를 내려놓을 뻔했다.

"A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature."

Anthropic의 Claude Mythos를 공개 논문만으로 역추론해 봤다는 선언이다. 내부 유출도, 파인튜닝도, 증류도 아니다. 가설을 코드로 쓴 것. 그리고 그 가설은 반증 가능할 정도로 구체적이다. 이 글은 OpenMythos가 제시하는 그 가설이 무엇인지, 그리고 안에 들어간 알고리즘과 원리를 조용히 따라가 보는 기록이다.

1. Claude Mythos라는 공백

먼저 맥락을 짚어야 한다. 2026년 3월 26일, Fortune은 Anthropic의 콘텐츠 관리 시스템 설정 오류로 다수의 미공개 자료가 공개 상태로 노출됐다고 보도했다. 보도에 따르면 유출된 초안에 "Claude Mythos"라는 새 모델이 등장했고, Anthropic이 이를 자사의 가장 강력한 모델로 소개하고 있었다고 한다.

4월 7일 Anthropic이 Mythos Preview 공식 페이지를 올리면서 일부 수치가 공개됐다. SWE-bench Verified 93.9%, Opus 4.6의 80.8%를 13.1%p 앞섰다. Firefox 147에서 JavaScript 익스플로잇 181건을 자동으로 만들어 냈고, OSS-Fuzz 말뭉치 약 1,000개 저장소에서 595건의 크래시와 완전한 제어 흐름 가로채기 10건을 찾아냈다. (verified 2026-04-21) 배포는 "Project Glasswing"이라는 이름으로 방어 보안 파트너에게만 제한적으로 이뤄지고 있다.

문제는 Anthropic이 Mythos의 아키텍처를 한 줄도 공개하지 않았다는 점이다. 공식 페이지에 실린 유일한 아키텍처성 언급은 이 정도다.

"We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy."

사실상 아무 말도 안 한 것과 같다. 그 침묵을 Kye Gomez가 파고들었다. 그가 내놓은 가설이 바로 OpenMythos다.

2. 가설의 뼈대: Recurrent-Depth Transformer

OpenMythos의 주장은 한 문장으로 요약된다. "Claude Mythos는 Recurrent-Depth Transformer (RDT) 계열일 것이다." 이름만 보면 생소한데, 그림으로 그리면 다음과 같다.

Recurrent-Depth Transformer 구조 — Input → Prelude → Recurrent Block × T (focal) → Coda → Output, 루프 궤도와 은닉 상태 갱신 규칙

세 덩어리의 역할은 이렇게 나뉜다.

Prelude: 한 번만 실행되는 표준 트랜스포머 층들. 입력 임베딩을 "생각하기 좋은 형태"로 바꾸는 전처리 단계다.
Recurrent Block: 같은 파라미터를 공유하는 트랜스포머 층들이 최대 max_loop_iters번 반복 실행된다. 이 블록이 "잠재적 사고"가 벌어지는 공간이다.
Coda: 마지막에 한 번만 실행되는 후처리 층들. 루프에서 수렴한 표현을 다음 토큰 확률로 변환한다.

GPT 계열의 깊이 L짜리 트랜스포머는 층마다 파라미터가 전부 다르다. RDT는 가운데 블록을 파라미터 재사용으로 여러 번 돌린다. 핵심 통찰은 간단하다. "생각하는 시간"을 파라미터 수와 분리할 수 있다는 것. 같은 모델이 쉬운 입력에는 루프 4번, 어려운 입력에는 루프 16번을 돌면 된다.

3. 루프 안정화: 가설에서 가장 흥미로운 부분

OpenMythos가 단순히 "트랜스포머를 여러 번 돌린다"에서 그쳤다면 2018년에 나온 Universal Transformers와 차이가 없다. 진짜 기여는 루프를 안정하게 돌리는 수학에 있다. 갱신 규칙은 제어 이론 책에서 튀어나온 것 같다.

h_{t+1} = A\,h_t + B\,e + \mathrm{Transformer}(h_t, e)

여기서 $e$ 는 Prelude 출력(입력 임베딩)이고 $h_t$ 는 루프 $t$ 번째의 은닉 상태다. $A$ , $B$ 는 학습 가능한 주입 행렬. 눈여겨볼 건 이 식에서 Transformer 항만 떼면 LTI (Linear Time-Invariant) 선형 시스템이라는 점이다.

h_{t+1} = A\,h_t + B\,e \quad \text{(선형 부분)}

LTI 시스템은 동역학이 두 가지로 갈린다. 행렬 $A$ 의 스펙트럴 반지름 $\rho(A)$ 가 1보다 크면 루프가 깊어질수록 은닉 상태가 폭발한다. $\rho(A)$ 가 1보다 작으면 안정하게 특정 영역으로 수렴한다. 바닐라 RNN이 깊어지면 그래디언트가 터지거나 사라지는 그 현상과 같은 원리다.

OpenMythos는 이 안정 조건을 파라미터화 자체로 강제한다.

A_{\text{cont}} = \mathrm{diag}\!\bigl(-\exp(\log A)\bigr), \qquad A_{\text{disc}} = \exp\!\bigl(\Delta t \cdot A_{\text{cont}}\bigr)

$-\exp(\log A)$ 는 어떤 입력이 와도 항상 음수다. 그러면 $A_{\text{cont}}$ 는 음의 정부호 대각이 되어 연속 시간 관점에서 항상 안정한 시스템이다. 행렬 지수로 이산화한 $A_{\text{disc}}$ 는 자동으로 $\rho(A) < 1$ 을 만족한다. 학습 도중 그래디언트가 아무리 요동쳐도 안정성 제약은 깨지지 않는다. 이 아이디어는 꽤 우아하게 꽂혔다.

이 수학은 OpenMythos가 혼자 떠올린 게 아니다. Parcae 논문 (UCSD + Together AI, 2026-04-14)이 "루핑을 잔차 스트림 위의 비선형 시간 가변 동역학계로 다시 쓰고, 주입 파라미터의 스펙트럴 노름 제약으로 residual 폭발을 막는다"고 공식화한 내용을 거의 그대로 차용했다. Kye는 References 섹션에 Parcae 블로그 URL을 숨기지 않고 적어 뒀다.

4. 어텐션·MoE·halting: 나머지 구성 요소들

루프가 뼈대라면 나머지는 그 뼈대 위에서 돌아가는 근육들이다. OpenMythos가 Mythos의 구성으로 지목하는 요소는 네 가지다.

4.1 Multi-Head Latent Attention과 GQA의 전환

attn_type 파라미터로 Multi-Head Latent Attention (MLA)과 Grouped-Query Attention (GQA) 중 하나를 고를 수 있게 해 뒀다. MLA는 DeepSeek-V2 계열이 쓰는 방식으로, KV 캐시를 저차원 latent로 압축해 긴 컨텍스트에서 메모리를 줄인다. GQA는 Llama 2의 34B와 70B 변형에 도입된 방식으로, 여러 쿼리 헤드가 같은 KV 헤드를 공유한다. 어느 쪽이 실제 Mythos에 들어갔는지는 아무도 모르기 때문에 양쪽을 다 넣었다.

4.2 Fine-grained Sparse MoE

Feed-forward 자리에 들어가는 건 fine-grained Mixture of Experts 구조다. 전문가를 더 작게 쪼개서 많이 만들고, 토큰마다 소수만 활성화한다. DeepSeek이 처음 제안한 "shared expert isolation" 변형도 함께 쓴다. 몇몇 전문가는 "항상 켜져 있는 공통 지식" 역할을 맡고, 나머지는 라우팅된다.

Variant	전체 파라미터	전문가 수	활성 전문가	활성 비율
mythos_1b	1B	64	4	~6%
mythos_3b	3B	64	4	~6%
mythos_50b	50B	256	4	~2%
mythos_1t	1T	512	4	~1%

전체 파라미터는 수조 단위지만 토큰당 계산량은 수십억 수준이다. 소위 "저렴한 지식 은행"이다.

4.3 Adaptive Computation Time으로 루프 수 결정

RDT의 강점은 루프 수를 바꿀 수 있다는 것인데, 얼마나 돌려야 할지 네트워크가 스스로 정하게 만드는 장치가 필요하다. OpenMythos는 Adaptive Computation Time (ACT) 혹은 학습된 수렴 기준으로 halting을 구현한다고 밝혔다. 입력마다 "이 정도면 충분히 생각했다"는 확률을 매 루프 내보내고, 누적 확률이 임계값을 넘으면 멈춘다.

Saunshi et al.의 Reasoning with Latent Thoughts가 이 그림에 이론적 근거를 더한다. 유효 깊이를 늘릴수록 다운스트림 성능이 점진적으로 오른다는 결과, 그리고 k층을 L번 루프한 모델이 kL층 비루프 모델에 근접한다는 실험이 그것이다. 쉬운 예제는 루프 2~3번이면 충분하고, 복잡한 추론 문제는 16번 이상 굴려야 정확도가 오른다는 얘기. ACT는 이 스케일링 법칙을 추론 시점에 실시간으로 이용하는 장치다.

4.4 Loop Index Embedding

같은 파라미터 블록을 여러 번 돌리면, 루프 1번째와 10번째가 구분되지 않는 문제가 생긴다. 둘 다 동일한 입출력 매핑을 하게 될 위험이 있다. OpenMythos는 RoPE처럼 루프 횟수 t를 위치 정보로 주입해 이를 깬다. 같은 블록이라도 t에 따라 다른 계산을 하게 된다. Kye의 문서는 이 기법이 "overthinking"(무한 반복 시 답이 맴도는 현상)의 완화책이 될 수 있다고 주장하지만, 이 구체적 효과는 아직 경험적으로 검증된 결과라기보다 OpenMythos 쪽의 가설에 가깝다.

5. 가설을 떠받치는 공개 논문 네 편

여기까지 읽으면 "이게 정말 Kye 개인의 직관일까?" 싶어진다. 실제로는 최근 12개월간 쌓인 공개 연구를 조립한 것에 가깝다. 계보를 네 단계로 정리하면 다음과 같다.

네 편의 공개 논문 타임라인 — 2018 Universal Transformers, 2025-02 Huginn-0125, ICLR 2025 Saunshi, 그리고 2026-04 Parcae(focal)와 4일 뒤의 OpenMythos(focal)

2018 · Universal Transformers — 같은 층을 반복 통과시키면 튜링 완전성에 가까워진다는 이론. 8년 전이지만 RDT 계보의 공통 조상이다.

2025-02 · Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach — 저자들이 Huginn-0125라는 이름으로 공개한 3.5B depth-recurrent 모델이 이 논문에 등장한다. 모델 카드에 따르면 800B 토큰으로 학습됐고, 메인테이너 논의에서 2 Prelude + 4 Recurrent + 2 Coda 블록 구성이 확인된다. 테스트 타임에 루프 수를 늘리면 추론 정확도가 오른다는 점을 실험으로 보였다. OpenMythos의 세 단 구조는 이 모델을 거의 그대로 빌려왔다.

2025 ICLR · Reasoning with Latent Thoughts — k층을 L번 루프한 모델이 kL층 비루프 모델과 거의 같은 성능을 낸다는 경험적 스케일링. "추론엔 깊이가 필요하지 파라미터가 필요한 게 아니다"는 주장이 여기서 나온다.

2026-04 · Parcae — 이번 스토리의 결정적 조각. OpenMythos 출시 나흘 전인 2026-04-14에 arXiv와 공식 프로젝트 페이지에 올라온 최신 논문이다. 1.3B Parcae가 같은 크기 Transformer를 CORE 벤치마크에서 28.44 vs 25.45, +2.99점 앞섰고, 770M Parcae가 1.3B Transformer와 품질이 비슷하다. 논문은 최적 루프 수와 토큰 수가 학습 FLOP 예산에 대해 예측 가능한 거듭제곱 법칙을 따른다고 정리했다. (verified 2026-04-21, Parcae 프로젝트 페이지)

이 네 편을 이어 붙이면 OpenMythos가 그리는 그림이 통째로 복원된다. Universal Transformer의 아이디어, Huginn의 블록 구조, Saunshi의 유효 깊이 스케일링, Parcae의 안정화 기법. 여기에 DeepSeek이 공개한 MLA와 shared-expert MoE를 얹어 마무리.

6. 써보려면: 간단한 메모

깊이 들어갈 생각이 없어도 PyPI에는 올라와 있다.

bash

pip install open-mythos

bash

pip install open-mythos

python

from open_mythos.main import OpenMythos, MythosConfig
 
config = MythosConfig(
    dim=2048, n_heads=16, n_kv_heads=4,
    attn_type="mla", max_loop_iters=16,
    num_experts=64, num_active_experts=4,
)
model = OpenMythos(config)

python

from open_mythos.main import OpenMythos, MythosConfig
 
config = MythosConfig(
    dim=2048, n_heads=16, n_kv_heads=4,
    attn_type="mla", max_loop_iters=16,
    num_experts=64, num_active_experts=4,
)
model = OpenMythos(config)

다만 실제 학습은 3B 변형만 스크립트가 제공되고, FineWeb-Edu 10BT로 30B 토큰을 돌리는 설정이라 소비자 GPU로는 장난감 수준에 머물 가능성이 크다.

7. 솔직히, 가설이 너무 매끄럽다

2시간쯤 읽다 보니 슬슬 의심이 들었다. OpenMythos의 그림은 너무 매끄럽게 맞아떨어진다. 그 매끄러움이 어디서 오느냐를 짚어 보면, 최근 12개월의 공개 논문들이 그려 놓은 흐름을 그대로 모아 놓은 것이다. Parcae의 안정성 분석, Saunshi의 스케일링 법칙, Huginn의 블록 구조, DeepSeek의 MLA와 MoE. 말하자면 "2026년 4월 기준 가장 그럴듯한 장난감 조합"이다.

그런데 Anthropic이 실제로 이 조합을 썼다는 증거는 어디에도 없다. Mythos Preview 페이지는 아키텍처를 한 줄도 공개하지 않았고, 유출된 초안에도 학습 규모나 토큰 수준의 얘기뿐 구조 얘기는 없었다. OpenMythos는 반증 가능한 가설이라는 점에서 가치가 있지만, "Mythos = RDT"라는 등식은 여전히 상상에 머문다.

코드 쪽도 아직 조심스럽다. 커밋 히스토리는 32개, 초기 커밋 이후 마지막 커밋이 "fix training"이다. 이슈 4개, PR 11개가 열려 있는데 Issue #8은 제목부터 "Provide sample inference script", 본문은 *"As in the title, is this even capable of doing anything? I guess no, then whats the point?"*다. 말이 곧 상태 보고서다. 3B 학습은 H100 여러 장 며칠이 드는 일이라 커뮤니티 재현까지는 시간이 필요하다. OpenMythos가 "770M 파라미터로 1.3B 트랜스포머와 동등한 품질"을 실제로 보였다고 말하려면 Parcae 쪽의 결과를 빌려 와야 한다. OpenMythos 자체의 숫자가 아니라.

8. 그래서 뭐가 남았나

OpenMythos는 Mythos의 내부를 폭로한 파일이 아니다. 그보다는 2026년 4월 기준, 오픈 커뮤니티가 최신 논문들로 조립할 수 있는 가장 그럴듯한 프런티어 모델의 상상도다. 가설이 맞는지 틀렸는지보다, 각 논문의 주장들이 어떻게 맞물리는지를 한 저장소로 압축해서 보여준 점이 내게는 더 큰 이득이었다.

주말에는 Parcae의 공식 구현을 받아서 작은 예제로 돌려 볼 생각이다. OpenMythos 자체는 학습 비용이 너무 커서 직접 재현하긴 어렵지만, Parcae는 Together AI 블로그에 설정이 공개돼 있다. 스펙트럴 반지름 제약이 실제로 loss spike를 얼마나 줄이는지 내 GPU에서 재현해 보는 쪽이 가설을 검증하는 것보다 재미있을 것 같다.

Mythos의 진짜 아키텍처가 RDT였는지는 Anthropic이 언젠가 테크리포트를 내기 전까지 모를 것이다. 그때까지 OpenMythos 같은 시도는 "공개된 연구로 어디까지 설명이 되는가"를 측정하는 리트머스 시험지로 쓸모가 있다. 그 이상도 이하도 아니다.