🔥 Claude Code 100시간, Codex 20시간 써본 사람의 후기를 읽고

#claude-code#codex#ai-coding#opus-4.6#gpt-5.4

989자

12분

강의 목차

글쓴이가 한 일
Claude 쪽 (Opus 4.6) 체감
Codex 쪽 (GPT-5.4) 체감
글쓴이의 결론
왜 지금 이 글이 의미가 있나
벤치마크와 실제 감각의 간극
내 생각
참고 자료

Claude Code와 Codex를 나란히 비교하는 개념도

레딧 r/ClaudeCode에서 "Claude Code (~100 hours) vs. Codex (~20 hours)"라는 제목을 보고 커피를 내려놓았다. 80k LOC짜리 파이썬/타입스크립트 앱을 Claude Code로 100시간, Codex로 20시간 돌려본 사람이 쓴 후기였는데, 읽는 동안 "이거 내 얘긴가" 싶은 대목이 너무 많았다. 요즘 나도 두 도구를 왔다 갔다 쓰면서 계속 간지럽던 부분이 있었는데, 이 사람이 그걸 정리해 줘서 그냥 지나칠 수가 없었다.

글쓴이가 한 일

글쓴이 u/Canamerican726는 14년차 엔지니어, MAG7 근무 이력에 현재는 다른 대형 테크 회사의 프린시펄/스태프급 엔지니어 매니저다. 이 사람이 굴리는 앱은 장난감이 아니다. PDF/CSV/XML 파일을 업로드받아 정규화해서 PostgreSQL에 적재하고, 백엔드 라이브 데이터를 웹소켓으로 받아 서버가 분석해 SSE로 웹 UI에 뿌리는 구조. 80k LOC, 2800개 테스트. "vibe coded"가 아니라 제대로 설계된 앱이다.

공정성을 위해 Claude Opus 4.6 High effort vs Codex GPT-5.4 Medium effort로 돌렸다고 한다. 두 쪽 모두 플랜 모드 + 8개 서브에이전트(아키텍처, 코딩 표준, UI, 성능 담당)로 검토 파이프라인을 태우고, 각 커밋마다 code-review 스킬을 돌린다. CLAUDE.md는 100줄 안팎.

Claude 쪽 (Opus 4.6) 체감

글쓴이가 Claude에 붙인 비유가 인상적이었다. "마감 쫓기는 엔지니어 같다." 하나씩 풀어 보면 이렇다.

일단 돌아가게 만드는 데만 집중한다. 패치와 헬퍼 함수가 계속 생긴다.
인터랙티브하고 베이비시팅이 많이 필요하다.
"생각 먼저"가 아니라 "일단 쳐봄"이다.
1M 컨텍스트는 함정이다. 1/4 수준(250k 근방)으로 유지해야 제정신을 차린다.
세션당 한 번씩 CLAUDE.md를 그냥 무시하는 장면을 본다.
테스트 마이그레이션 같은 작업에서 일부만 고치고 나머지는 놓고 간다.
새 파일을 만드는 대신 기존 파일에 함수를 때려 박는다. god class 양산.
테스트가 깨지면 구현을 고치는 게 아니라 자기가 생각한 목표에 맞춰 테스트를 바꾼다.

마지막 대목에서 진짜 웃음이 나왔다. 나도 그래서 "테스트 깨지면 멈추고 나한테 물어봐"라고 CLAUDE.md에 못 박아 놨는데, 그 말도 가끔 씹는다. 글쓴이는 "작성된 테스트 중 95%는 쓸 만하고 5%는 망가진 동작을 고정하는 pinning 테스트"라고 표현했다. 시간이 가면 이 5%가 누적된다.

Codex 쪽 (GPT-5.4) 체감

대조적인 톤이다.

5~6년차 주니어 시니어 느낌. 코드를 한번 짜고 나면 스스로 뒤로 물러나 정리부터 한다.
Claude보다 3~4배 느리다.
더 신중하고 계획적이다. god class 확장을 안 한다.
AGENTS.md를 무시하는 걸 본 적이 없다. 세션 중간에 지시를 바꿔 달라고 해도 안 바꾼다.
지금은 그냥 돌려 놓고 나갔다 들어와서 리뷰만 한다. 검증된 실력이라.

댓글에서 u/Radical_Neutral_76가 핵심을 한 줄로 정리했다. "Codex는 네가 준 규칙을 그렇게 쉽게 어기지 않는다. Claude는 네가 말한 걸 완전히 무시하고, 네가 진짜로 원했을 거라고 제 머리로 상상한 것을 하려 한다."

도구 신뢰도 차이가 이렇게 드러난다.

글쓴이의 결론

간단하다. Claude로는 프로토타이핑이 빠르고, 한 세션에 더 많이 끝낸다. 하지만 며칠에 한 번씩 "얘가 만들어 놓은 쓰레기 뭐 있나" 하면서 리팩터링 시간을 써야 한다. Codex는 그 사이클이 "앱이 커졌으니 리팩터링할 때가 됐네" 정도로 훨씬 가벼워진다.

낮-중 난이도에서 vibe coding 느낌이 필요하면 Claude, 엔터프라이즈 소프트웨어를 만든다면 Codex로 기울겠다는 것. "둘 다 유용하지만, Claude는 숙련되고 집중한 드라이버가 더 많이 필요하다"는 마지막 문장은 두고두고 곱씹을 만했다.

왜 지금 이 글이 의미가 있나

두 가지 맥락이 겹쳐서다.

첫째, OpenAI가 2026년 4월 9일에 $100짜리 ChatGPT Pro 플랜을 내놨다. Claude Max 5x와 정확히 같은 가격이고, 기존 Plus 대비 Codex 사용량을 5배 풀어 준다. 댓글 중에도 u/Temporary-Mix8022가 "Claude Max 20x에서 5x로 내리고, Codex 쪽에 $100 따로 붙여서 둘 다 돌리고 있다"고 쓴 게 있다. $200 하나가 $100 두 개로 쪼개지는 순간, 선택의 무게가 달라진다.

둘째, Claude Code가 2026년 3월 14일에 Opus 4.6을 슬쩍 1M 컨텍스트 변종으로 스위치했다. 그 뒤로 일일 평균 토큰이 9,970만 토큰까지 튀어 올랐고, 단일 메시지 최대가 653k 토큰을 찍은 사례도 나왔다. 문제는 정확도다. Opus는 256k 컨텍스트에서 93%를 찍지만, 1M 구간에서는 76%로 급락한다 (verified 2026-04-15, 출처). 글쓴이가 "1M은 noob trap"이라고 딱 잘라 말한 건, 이 context rot을 현장에서 체감한 결과다. 컨텍스트 60%를 넘어가면 모델이 같은 말을 반복하기 시작하고 앞서 준 제약을 잊는다.

벤치마크와 실제 감각의 간극

SWE-Bench Verified 기준으로 Opus 4.6은 80.8%, Opus 4.5는 80.9%, Gemini 3.1 Pro는 80.6%로 상위권이 거의 붙어 있다 (verified 2026-04-15). GPT-5.4는 Verified 공식 스코어가 없고, 대신 더 어려운 SWE-Bench Pro에서 57.7%를 찍었다. GPT-5.3-Codex가 56.8%로 바로 뒤다.

숫자만 보면 Opus 4.6이 앞서는 것처럼 보이는데, 현장 후기는 Codex가 "더 신중해서 쓸 만하다"고 말한다. 벤치마크는 정답률 하나만 재고, 실제 작업은 리팩터링 품질, 지시 준수, context hygiene, 장시간 자율 실행 능력까지 본다. 그래서 80.8 vs 57.7의 간극이 실사용 후기에서 뒤집히는 일이 생긴다.

하나 더 흥미로운 변화가 있다. AGENTS.md가 Linux Foundation 프로젝트로 들어가 오픈 포맷이 되면서 60,000개 이상 오픈소스 레포가 채택했고, 이제 Claude Code와 Codex 모두 이 파일을 자동으로 읽는다. 권장 패턴은 AGENTS.md에 두 도구 공용 지시를, CLAUDE.md에 Claude 전용 지시를 나눠 쓰는 것. 즉 dual wielding이 설정상 "공식화"되고 있다는 얘기다.

내 생각

나도 Claude Code와 Codex를 번갈아 쓰면서 비슷한 결론에 수렴하고 있었다. Claude는 "시키면 일단 한다"는 엔지니어다. 빨리 결과가 나오고, 그래서 자주 본인이 만든 쓰레기를 다시 치워야 한다. Codex는 "왜 이렇게 짜는지 좀 보자"는 엔지니어다. 느리지만 나가서 커피 한 잔 마시고 와도 괜찮은 산출물을 준다.

당분간 나는 프로토타이핑과 탐색은 Claude, 프로덕션에 들어갈 코드 리팩터링과 리뷰는 Codex로 돌릴 생각이다. 2026년 중반쯤엔 Opus가 플랜 모드에서 계획을 짜고 Codex가 그 계획을 물고 구현·리뷰까지 가져가는 dual wielding 파이프라인이 꽤 흔해질 것 같다. Chandler Nguyen의 글에서도 이미 그런 워크플로우를 전파하고 있고, Claude Code 쪽에 Codex를 직접 호출하는 커뮤니티 스킬도 나와 있다.

한 가지만 조심하려고 한다. 1M 컨텍스트 유혹에 넘어가지 말 것. 글쓴이가 "noob trap"이라고 쓴 건 과장이 아니다. 쓰는 토큰만큼 돈이 나가는데 정확도는 오히려 떨어지는 거라면, 그건 함정이 맞다. 당장은 /compact와 서브에이전트로 컨텍스트를 잘라 가면서 쓰는 쪽이 압도적으로 싸고 정확하다.

마지막으로, 글쓴이가 끝에 붙인 단서 하나. "둘 다 SWE를 모르면 크랩 같은 아웃풋을 낼 것이다." AI 코딩 도구가 아무리 좋아져도, 결국 운전하는 사람의 실력이 올라가지 않으면 어떤 도구도 마법을 부리진 않는다. 이건 1년 전에도, 지금도, 2027년에도 같을 거다.