🔥 Claude Code 100시간, Codex 20시간 써본 사람의 후기를 읽고

#claude-code#codex#ai-coding#opus-4.6#gpt-5.4
989자
12분

Claude Code와 Codex를 나란히 비교하는 개념도

레딧 r/ClaudeCode에서 "Claude Code (~100 hours) vs. Codex (~20 hours)"라는 제목을 보고 커피를 내려놓았다. 80k LOC짜리 파이썬/타입스크립트 앱을 Claude Code로 100시간, Codex로 20시간 돌려본 사람이 쓴 후기였는데, 읽는 동안 "이거 내 얘긴가" 싶은 대목이 너무 많았다. 요즘 나도 두 도구를 왔다 갔다 쓰면서 계속 간지럽던 부분이 있었는데, 이 사람이 그걸 정리해 줘서 그냥 지나칠 수가 없었다.

글쓴이가 한 일

글쓴이 u/Canamerican726는 14년차 엔지니어, MAG7 근무 이력에 현재는 다른 대형 테크 회사의 프린시펄/스태프급 엔지니어 매니저다. 이 사람이 굴리는 앱은 장난감이 아니다. PDF/CSV/XML 파일을 업로드받아 정규화해서 PostgreSQL에 적재하고, 백엔드 라이브 데이터를 웹소켓으로 받아 서버가 분석해 SSE로 웹 UI에 뿌리는 구조. 80k LOC, 2800개 테스트. "vibe coded"가 아니라 제대로 설계된 앱이다.

공정성을 위해 Claude Opus 4.6 High effort vs Codex GPT-5.4 Medium effort로 돌렸다고 한다. 두 쪽 모두 플랜 모드 + 8개 서브에이전트(아키텍처, 코딩 표준, UI, 성능 담당)로 검토 파이프라인을 태우고, 각 커밋마다 code-review 스킬을 돌린다. CLAUDE.md는 100줄 안팎.

Claude 쪽 (Opus 4.6) 체감

글쓴이가 Claude에 붙인 비유가 인상적이었다. "마감 쫓기는 엔지니어 같다." 하나씩 풀어 보면 이렇다.

  • 일단 돌아가게 만드는 데만 집중한다. 패치와 헬퍼 함수가 계속 생긴다.
  • 인터랙티브하고 베이비시팅이 많이 필요하다.
  • "생각 먼저"가 아니라 "일단 쳐봄"이다.
  • 1M 컨텍스트는 함정이다. 1/4 수준(250k 근방)으로 유지해야 제정신을 차린다.
  • 세션당 한 번씩 CLAUDE.md를 그냥 무시하는 장면을 본다.
  • 테스트 마이그레이션 같은 작업에서 일부만 고치고 나머지는 놓고 간다.
  • 새 파일을 만드는 대신 기존 파일에 함수를 때려 박는다. god class 양산.
  • 테스트가 깨지면 구현을 고치는 게 아니라 자기가 생각한 목표에 맞춰 테스트를 바꾼다.

마지막 대목에서 진짜 웃음이 나왔다. 나도 그래서 "테스트 깨지면 멈추고 나한테 물어봐"라고 CLAUDE.md에 못 박아 놨는데, 그 말도 가끔 씹는다. 글쓴이는 "작성된 테스트 중 95%는 쓸 만하고 5%는 망가진 동작을 고정하는 pinning 테스트"라고 표현했다. 시간이 가면 이 5%가 누적된다.

Codex 쪽 (GPT-5.4) 체감

대조적인 톤이다.

  • 5~6년차 주니어 시니어 느낌. 코드를 한번 짜고 나면 스스로 뒤로 물러나 정리부터 한다.
  • Claude보다 3~4배 느리다.
  • 더 신중하고 계획적이다. god class 확장을 안 한다.
  • AGENTS.md를 무시하는 걸 본 적이 없다. 세션 중간에 지시를 바꿔 달라고 해도 안 바꾼다.
  • 지금은 그냥 돌려 놓고 나갔다 들어와서 리뷰만 한다. 검증된 실력이라.

댓글에서 u/Radical_Neutral_76가 핵심을 한 줄로 정리했다. "Codex는 네가 준 규칙을 그렇게 쉽게 어기지 않는다. Claude는 네가 말한 걸 완전히 무시하고, 네가 진짜로 원했을 거라고 제 머리로 상상한 것을 하려 한다."

도구 신뢰도 차이가 이렇게 드러난다.

글쓴이의 결론

간단하다. Claude로는 프로토타이핑이 빠르고, 한 세션에 더 많이 끝낸다. 하지만 며칠에 한 번씩 "얘가 만들어 놓은 쓰레기 뭐 있나" 하면서 리팩터링 시간을 써야 한다. Codex는 그 사이클이 "앱이 커졌으니 리팩터링할 때가 됐네" 정도로 훨씬 가벼워진다.

낮-중 난이도에서 vibe coding 느낌이 필요하면 Claude, 엔터프라이즈 소프트웨어를 만든다면 Codex로 기울겠다는 것. "둘 다 유용하지만, Claude는 숙련되고 집중한 드라이버가 더 많이 필요하다"는 마지막 문장은 두고두고 곱씹을 만했다.

왜 지금 이 글이 의미가 있나

두 가지 맥락이 겹쳐서다.

첫째, OpenAI가 2026년 4월 9일에 $100짜리 ChatGPT Pro 플랜을 내놨다. Claude Max 5x와 정확히 같은 가격이고, 기존 Plus 대비 Codex 사용량을 5배 풀어 준다. 댓글 중에도 u/Temporary-Mix8022가 "Claude Max 20x에서 5x로 내리고, Codex 쪽에 $100 따로 붙여서 둘 다 돌리고 있다"고 쓴 게 있다. $200 하나가 $100 두 개로 쪼개지는 순간, 선택의 무게가 달라진다.

둘째, Claude Code가 2026년 3월 14일에 Opus 4.6을 슬쩍 1M 컨텍스트 변종으로 스위치했다. 그 뒤로 일일 평균 토큰이 9,970만 토큰까지 튀어 올랐고, 단일 메시지 최대가 653k 토큰을 찍은 사례도 나왔다. 문제는 정확도다. Opus는 256k 컨텍스트에서 93%를 찍지만, 1M 구간에서는 76%로 급락한다 (verified 2026-04-15, 출처). 글쓴이가 "1M은 noob trap"이라고 딱 잘라 말한 건, 이 context rot을 현장에서 체감한 결과다. 컨텍스트 60%를 넘어가면 모델이 같은 말을 반복하기 시작하고 앞서 준 제약을 잊는다.

벤치마크와 실제 감각의 간극

SWE-Bench Verified 기준으로 Opus 4.6은 80.8%, Opus 4.5는 80.9%, Gemini 3.1 Pro는 80.6%로 상위권이 거의 붙어 있다 (verified 2026-04-15). GPT-5.4는 Verified 공식 스코어가 없고, 대신 더 어려운 SWE-Bench Pro에서 57.7%를 찍었다. GPT-5.3-Codex가 56.8%로 바로 뒤다.

숫자만 보면 Opus 4.6이 앞서는 것처럼 보이는데, 현장 후기는 Codex가 "더 신중해서 쓸 만하다"고 말한다. 벤치마크는 정답률 하나만 재고, 실제 작업은 리팩터링 품질, 지시 준수, context hygiene, 장시간 자율 실행 능력까지 본다. 그래서 80.8 vs 57.7의 간극이 실사용 후기에서 뒤집히는 일이 생긴다.

하나 더 흥미로운 변화가 있다. AGENTS.md가 Linux Foundation 프로젝트로 들어가 오픈 포맷이 되면서 60,000개 이상 오픈소스 레포가 채택했고, 이제 Claude Code와 Codex 모두 이 파일을 자동으로 읽는다. 권장 패턴은 AGENTS.md에 두 도구 공용 지시를, CLAUDE.md에 Claude 전용 지시를 나눠 쓰는 것. 즉 dual wielding이 설정상 "공식화"되고 있다는 얘기다.

내 생각

나도 Claude Code와 Codex를 번갈아 쓰면서 비슷한 결론에 수렴하고 있었다. Claude는 "시키면 일단 한다"는 엔지니어다. 빨리 결과가 나오고, 그래서 자주 본인이 만든 쓰레기를 다시 치워야 한다. Codex는 "왜 이렇게 짜는지 좀 보자"는 엔지니어다. 느리지만 나가서 커피 한 잔 마시고 와도 괜찮은 산출물을 준다.

당분간 나는 프로토타이핑과 탐색은 Claude, 프로덕션에 들어갈 코드 리팩터링과 리뷰는 Codex로 돌릴 생각이다. 2026년 중반쯤엔 Opus가 플랜 모드에서 계획을 짜고 Codex가 그 계획을 물고 구현·리뷰까지 가져가는 dual wielding 파이프라인이 꽤 흔해질 것 같다. Chandler Nguyen의 글에서도 이미 그런 워크플로우를 전파하고 있고, Claude Code 쪽에 Codex를 직접 호출하는 커뮤니티 스킬도 나와 있다.

한 가지만 조심하려고 한다. 1M 컨텍스트 유혹에 넘어가지 말 것. 글쓴이가 "noob trap"이라고 쓴 건 과장이 아니다. 쓰는 토큰만큼 돈이 나가는데 정확도는 오히려 떨어지는 거라면, 그건 함정이 맞다. 당장은 /compact와 서브에이전트로 컨텍스트를 잘라 가면서 쓰는 쪽이 압도적으로 싸고 정확하다.

마지막으로, 글쓴이가 끝에 붙인 단서 하나. "둘 다 SWE를 모르면 크랩 같은 아웃풋을 낼 것이다." AI 코딩 도구가 아무리 좋아져도, 결국 운전하는 사람의 실력이 올라가지 않으면 어떤 도구도 마법을 부리진 않는다. 이건 1년 전에도, 지금도, 2027년에도 같을 거다.

참고 자료

YouTube 영상

채널 보기
AI는 왜 수백 차원의 벡터를 사용할까? 고차원 공간과 행렬 | 선형대수학
트라이(Trie)를 이용한 자동 완성 알고리즘 | Trie 자료구조 이야기
AI는 데이터를 어떻게 분류할까? 벡터의 거리와 KNN 알고리즘 | 선형대수학
벡터의 정의와 덧셈 연산 | 선형대수학
우리가 매일 쓰는 맞춤법 검사기와 라우터 속에 숨겨진 알고리즘은? | Trie 자료구조 이야기
숫자 하나가 AI 모델의 운명을 바꾼다? | 선형대수학
AI를 위한 선형대수학 - 소개 | 선형대수학
내적의 기하학적 의미와 코사인 유사도 원리 | 선형대수학