🔥 GPT-4.1에 스킬을 붙였더니 Gemini 3 Pro를 넘었다

#ai#agent#skill#self-play#context-learning

947자

12분

강의 목차

컨텍스트 학습에는 두 제약이 있다
다섯 에이전트가 스킬을 갱신한다
적대적 붕괴를 Cross-Time Replay가 막는다
스킬이 모델 격차를 좁힌다
자연어 스킬 자가진화가 남긴 판단
참고 자료

GPT-4.1이 자가진화한 markdown 스킬 더미를 머리에 얹고 16.5%, 옆에 더 큰 Gemini 3 Pro가 단독 15.8% — 모델 크기 대신 스킬이 capability cap을 미는 그림

Anthropic 이 정의한 Agent Skills 는 마크다운과 보조 파일로 모델에게 특정 작업을 일관되게 하라고 가르치는 명세 묶음이다. 그 정의를 다시 읽으면 한 가지 질문이 곧장 따라온다 — 그 마크다운을 사람이 쓰지 않고 모델끼리 키우면 어떻게 될까. arXiv:2604.27660 의 Ctx2Skill 논문은 이 질문을 정면으로 다룬다.

컨텍스트 학습에는 두 제약이 있다

Ctx2Skill 개념 도식 — context로부터 자연어 스킬을 사람 annotation 없이 자동으로 발견·정제·선택하는 흐름

출처: From Context to Skills (arXiv:2604.27660) Figure 1

Anthropic Agent Skills 는 마크다운과 보조 파일로 모델의 반복 작업을 안정화한다. 발표 이후 자연어 스킬을 작업 단위로 다루는 팀이 빠르게 늘었다. Ctx2Skill 은 그 자연어 스킬을 사람이 직접 쓰던 단계를 다섯 모델의 셀프플레이로 대체했을 때 성능이 얼마나 오르는지 측정한다. 코드는 GitHub: S1s-Z/Ctx2Skill 에 있다.

자가진화가 필요한 이유는 컨텍스트 학습에서 사람 주석과 외부 피드백이 모두 비싸기 때문이다. 논문은 컨텍스트 학습을 모델이 긴 문서에서 새 지식을 직접 배워 문제를 푸는 능력으로 둔다. 제품 매뉴얼, 연구 논문, 실험 데이터, 운영 문서가 여기에 들어간다. 좋은 스킬을 사람이 쓰려면 문서 전체를 이해해야 한다.

컨텍스트 학습에는 실행 결과나 정답 비교 같은 검증 신호도 부족하다. 코딩 문제는 테스트를 돌리고, 수학 문제는 정답을 비교한다. 반면 새 도메인 문서에서 만든 스킬이 문맥 지식을 충분히 담았는지 자동으로 말해 주는 신호는 없다. 논문은 이 조건을 사람 주석 없음, 외부 피드백 없음, 파라미터 업데이트 없음으로 제한한다.

평가는 CL-bench에서 한다. CL-bench의 규모는 컨텍스트 500개, 태스크 1,899개, 루브릭 31,607개다. 네 범주는 도메인 지식 추론, 규칙 적용, 절차 실행, 경험적 발견과 시뮬레이션이다. 채점은 모든 루브릭을 통과해야 성공이다.

다섯 에이전트가 스킬을 갱신한다

Ctx2Skill 프레임워크 개관 — 셀프플레이 루프 안의 Challenger·Reasoner·Judge·Proposer·Generator와 Cross-Time Replay가 후보 스킬 셋 중 하나를 고르는 과정

출처: From Context to Skills (arXiv:2604.27660) Figure 2

Ctx2Skill은 다섯 종류의 에이전트 역할로 스킬을 갱신한다. Challenger는 컨텍스트에서 문제와 루브릭을 만든다. Reasoner는 현재 Reasoner 스킬 셋을 붙이고 그 문제를 푼다. Judge는 루브릭 통과 여부를 이진값으로 판정한다.

실패한 케이스와 쉽게 해결한 케이스는 서로 다른 쪽으로 간다. Reasoner가 실패한 케이스는 Reasoner 쪽 Proposer와 Generator가 받는다. Proposer는 빠진 문맥 지식이나 잘못 이해한 절차를 진단한다. Generator는 그 진단으로 스킬 셋을 새로 작성한다.

쉽게 해결한 케이스는 Challenger 쪽 Proposer와 Generator가 받는다. 이쪽은 문제가 너무 쉬웠던 이유를 진단하고, 다음 반복에서 더 깊은 문맥 이해를 요구하도록 Challenger 스킬 셋을 갱신한다. 논문은 컨텍스트마다 5번 반복하고, 반복마다 5개 태스크를 만든다.

중요한 점은 모델 파라미터가 그대로라는 것이다. 다섯 에이전트는 자연어 스킬 셋만 고친다. AutoSkill 같은 자동 스킬 구성 계열이 실행 피드백이나 상호작용 기록에 기대는 반면, Ctx2Skill은 같은 컨텍스트에서 나온 실패와 성공만 쓴다.

적대적 붕괴를 Cross-Time Replay가 막는다

Cross-Time Replay가 컨텍스트별로 고른 iteration의 분포 — 세 backbone 모두에서 초반 iteration이 가장 자주 선택되고, 일부 컨텍스트에서만 후반 iteration이 살아남는다

출처: From Context to Skills (arXiv:2604.27660) Figure 3

셀프플레이는 반복이 길어질수록 같은 스킬의 정답률이 줄어든다. Challenger가 계속 어려운 문제를 만들면 Reasoner는 대표적인 문맥 지식보다 병적인 실패 케이스에 맞춰 스킬을 바꾼다. 논문은 이 현상을 adversarial collapse라고 부른다.

실험 수치도 같은 방향을 보인다. GPT-4.1에서 마지막 반복의 스킬을 고정으로 쓰면 성능이 Iter-1 15.9%에서 Iter-5 14.7%로 내려간다. 더 많은 반복이 항상 더 좋은 스킬을 만들지 않는다. 마지막 산출물을 그대로 쓰는 전략은 이 조건에서 맞지 않는다.

Cross-Time Replay는 각 반복에서 나온 Reasoner 스킬 후보를 컨텍스트별로 다시 평가한다. 각 반복에서 가장 어려웠던 실패 태스크를 hard probe set에 넣고, 가장 쉬웠던 성공 태스크를 easy probe set에 넣는다. 그 뒤 모든 후보 스킬을 두 probe set에 다시 적용한다.

선택 기준은 ρh와 ρe의 곱이다. ρh는 어려운 probe set 성공률이고, ρe는 쉬운 probe set 성공률이다. 곱을 쓰면 어려운 문제만 맞히고 쉬운 문제를 틀리는 후보가 낮은 점수를 받는다. 논문은 덧셈 점수로 바꾸면 GPT-4.1 기준 점수가 곱 점수보다 0.6%p 낮다고 보고한다.

스킬이 모델 격차를 좁힌다

CL-bench overall solving rate 비교 — GPT-4.1 11.1→16.5(+5.4%p), GPT-5.1 21.1→25.8(+4.7%p), GPT-5.2 18.2→21.4(+3.2%p), 그리고 GPT-4.1+Ctx2Skill 16.5%가 Gemini 3 Pro 단독 15.8%를 넘는 그림

Ctx2Skill의 핵심 수치는 세 기반 모델 모두에서 성능이 오른다는 점이다. Table 1 기준 GPT-4.1은 11.1%에서 16.5%로 오른다(+5.4%p). GPT-5.1은 21.1%에서 25.8%로 오른다(+4.7%p). GPT-5.2는 18.2%에서 21.4%로 오른다(+3.2%p).

논문의 결정적인 비교는 GPT-4.1+Ctx2Skill 16.5%와 Gemini 3 Pro 단독 15.8%다. 모델 크기나 최신성만 올린 결과가 아니다. 같은 컨텍스트에서 만든 자연어 스킬을 붙이면 낮은 모델이 더 강한 모델을 앞선다.

CL-bench 세부 카테고리별 GPT-4.1 solving rate — base 모델 대비 Ctx2Skill 적용 후 거의 모든 sub-category에서 게인이 보이고, workflow orchestration 같은 절차 영역의 상승 폭이 가장 크다

출처: From Context to Skills (arXiv:2604.27660) Figure 4

전이 결과도 중요하다. GPT-5.1이 만든 스킬을 GPT-4.1에 붙이면 16.1%가 나온다. GPT-4.1이 자기 스킬로 얻은 16.5%와 거의 같다. 반대로 GPT-4.1이 만든 스킬을 GPT-5.1에 붙이면 23.1%다. GPT-5.1이 자기 스킬로 얻은 25.8%보다 낮다. 강한 모델이 만든 스킬은 약한 모델에 잘 전이되지만, 약한 모델이 만든 스킬은 강한 모델이 쓸 지식을 충분히 담지 못한다.

자연어 스킬 자가진화가 남긴 판단

이 결과를 보면 자연어 스킬은 더 이상 정적인 설정 파일이 아니다. 사람이 경험을 문장으로 바꾸고, 그 문장이 다음 실행을 안정화한다. Ctx2Skill 은 그 갱신을 모델끼리 맡겨도 측정 가능한 개선이 나온다는 증거를 제시한다.

다만 이 결과는 컨텍스트 학습처럼 외부 피드백이 약한 작업에서 가장 직접적이다. 코딩이나 수학처럼 실행과 정답 비교가 있는 작업에서는 AutoSkill 처럼 실행 결과를 피드백으로 쓰는 방법이 더 직접적이다. 자연어 스킬 갱신을 설계하는 입장이라면 실패 로그를 한 묶음으로 던지지 않고, 실패한 케이스와 쉽게 해결한 케이스를 별도 입력으로 분리해 두는 방식이 합리적인 출발점이 된다.

참고 자료

From Context to Skills: Can Language Models Learn from Context Skillfully? (arXiv:2604.27660): Ctx2Skill 원 논문. 다섯 에이전트 셀프플레이와 Cross-Time Replay의 정의, 모든 벤치마크 수치의 1차 출처
GitHub: S1s-Z/Ctx2Skill: 공개 코드 저장소. self-play 루프 구현과 prompt template 확인용
CL-bench: A Benchmark for Context Learning (arXiv:2602.03587): 평가에 쓰인 500 컨텍스트, 1,899 태스크, 31,607 루브릭 벤치마크의 1차 출처
Anthropic, Equipping agents for the real world with Agent Skills: Anthropic Agent Skills 정의. 자연어 스킬 augmentation 산업 측 정확한 동인
AutoSkill: Experience-Driven Lifelong Learning via Skill Self-Evolution (arXiv:2603.01145): Ctx2Skill의 baseline 비교 대상. 외부 피드백이 있는 자가진화 계열의 대표