🔥 별 5만짜리 TradingAgents — Sharpe 8.21 너머에 무엇이 있나

별 5만 3천, 포크 9천이 넘는다. 재작년 말 처음 논문이 공개된 저장소가 도달한 숫자다.
TauricResearch/TradingAgents는 멀티에이전트 LLM 트레이딩 프레임워크다. 이름만 보면 또 하나의 "AI가 주식을 사 줍니다" 류 같지만, 들여다보면 결이 좀 다르다. 저자가 UCLA를 중심으로 한 연구진(MIT 공저자 포함)이고, arXiv 2412.20138 논문이 AAAI 2025 MARW 워크숍 oral로 채택됐고, 코드가 Apache-2.0으로 풀려 있다. 5만 별이 무게 없이 붙은 건 아니라는 뜻이다.
그래서 며칠 동안 README와 논문, 그리고 비판 논문 한 편까지 같이 읽었다. 그 끝에 한 가지 의심이 또렷해졌다. 이 저장소가 별 5만짜리가 된 진짜 이유는 백테스트의 Sharpe 8.21이 아니다. 그 숫자는 저자 본인이 footnote에서 "비정상적으로 높다"고 인정한 자리다. 그럼 뭐가 가치인지, 그게 이 글의 한 가지 질문이다.
한 줄로 무엇인가
TradingAgents는 트레이딩 회사 조직을 그대로 LLM 에이전트로 옮긴 프레임워크다. 7개 역할이 5개 단위로 묶여 있다. 분석팀(Fundamentals / Sentiment / News / Technical 분석가 4명) → 리서치팀(Bull과 Bear 두 명의 토론) → 트레이더 → 리스크팀(Risky / Neutral / Safe 세 관점의 토론) → 펀드매니저 최종 승인. 매수·매도 신호 한 번을 내기 위해 appendix log 기준 LLM 호출 10회대 + 도구 호출 20회대가 돌아가는 것으로 추정된다.

출처: TradingAgents GitHub README (Apache-2.0)
LangGraph 위에 얹혀 있고, 각 에이전트의 상태가 그래프 노드로 정의돼 있다. 노드별 체크포인트가 SQLite에 저장되니 중간에 죽어도 그 단계에서 다시 시작한다. 한 번 결정을 내리면 ~/.tradingagents/memory/trading_memory.md에 결정과 그 이후의 실현 수익률이 같이 쌓이고, 다음 같은 종목 분석에서 펀드매니저 프롬프트에 자동 주입된다. v0.2.4(2026-04-25)부터는 OpenAI / Gemini / Claude / Grok / DeepSeek / Qwen / GLM / Azure / Ollama가 한 설정 한 줄로 갈아 끼워진다.
이게 다른 LLM 트레이딩 프로젝트와 갈리는 첫 결이다. 프롬프트 모음이 아니라, 트레이딩 회사 조직도가 코드 안에 정의된 청사진이다.
왜 굳이 5단위 7역할인가
논문이 가장 공들여 풀어 놓은 자리가 여기다. 기존 LLM 트레이딩 시스템은 두 가지 함정에 빠져 있었다는 게 저자들의 진단이다.
첫째, 조직 모델링이 비현실적이었다. 단일 에이전트가 모든 일을 다 하거나, 여러 에이전트가 데이터만 따로 모으고 합치는 식이었다. 실제 트레이딩 회사의 분석팀–리서치팀–리스크팀 위계가 LLM 위에 옮겨진 적이 거의 없었다는 얘기다.
둘째, 통신 인터페이스가 비효율적이었다. 에이전트가 자연어 메시지 큐로만 대화하면 Hong et al. 2024가 지적한 "telephone effect"가 나타난다. 대화가 길어질수록 초기 정보가 변형되거나 사라지고, LLM 컨텍스트 한도 안에서 옛 결정을 추적하기가 점점 어려워진다.
TradingAgents의 답은 하이브리드다. 분석팀과 트레이더는 구조화된 리포트 문서로만 소통한다. 리포트는 전역 상태에 저장되고 다음 에이전트가 필요한 필드만 쿼리한다. 반면 리서치팀(Bull vs Bear)과 리스크팀(Risky / Neutral / Safe)은 자연어 토론으로 n라운드 디베이트한다. 토론이 끝나면 facilitator 에이전트가 우세 관점을 골라 구조화된 엔트리로 다시 기록한다.
이 분기가 흥미로운 이유는, 토론이 언제 가치를 만드는지에 대한 가설을 코드로 옮겼다는 점이다. 사실을 모을 때(분석)는 토론이 noise이고, 가치 판단을 다툴 때(불 vs 베어, 리스크 강도)는 토론이 signal이다. 서로 다른 통신 방식이 서로 다른 작업에 맞다는 직관, 사람 트레이딩 회사가 이미 그렇게 한다는 그 직관이 LLM 멀티에이전트 시스템 안에 옮겨진 첫 큰 사례다.
그래서 진짜 돈을 벌었나
논문의 백테스트 결과는 한눈에 들어온다. v7이 Table 1에 보고하는 건 AAPL / GOOGL / AMZN 3개 메가캡 종목, 약 3개월 슬라이스다(논문 안에 1Q 2024와 6월~11월 시뮬레이션 셋업이 함께 적혀 있어 정확한 윈도우는 일관성이 떨어진다). 누적수익률 26.62%(AAPL), 24.36%(GOOGL), 23.21%(AMZN). Buy & Hold(B&H), MACD, KDJ+RSI, ZMR, SMA — 다섯 가지 룰 기반 전략 베이스라인을 모두 이긴다.
문제는 Sharpe Ratio 숫자다. AAPL에서 8.21, GOOGL에서 6.39, AMZN에서 5.60. 보통 SR이 2를 넘으면 매우 우수, 3을 넘으면 예외적으로 친다는 게 논문 자체의 표현이다. 그래서 저자들이 직접 footnote에 한 단락을 적어 둔다. 최고 SR이 그 경험적 범위를 넘는다고, 그래서 거래 시퀀스를 직접 검토해서 계산은 정확했음을 확인했고, 그 기간에 TradingAgents 포지션에 풀백이 거의 없었던 것이 원인일 가능성이 높다고. 8.21이라는 숫자에 본인들도 놀랐다는 솔직한 자리다.
여기서 한 박자 멈춰야 한다. SR이 8을 넘는 백테스트는 실제 운용으로 옮기면 거의 예외 없이 무너진다. 같은 LLM 트레이더 패밀리를 진짜로 길게 돌려 본 연구가 2025년에 나왔다. 에든버러·성균관·UCLA 연구진의 FINSABER다. 20년치(2004–2024) 데이터에서 100개 이상 종목에 FinMem, FinAgent 같은 LLM 트레이더를 돌렸더니 결론은 강세장에 너무 보수적, 약세장에 너무 공격적이었다. Buy & Hold나 전통 룰 기반 베이스라인을 일관되게 이기지는 못했다(개별 종목·기간에서는 이긴 자리도 있지만 평균이 무너졌다). 구체 숫자로 보면 — FinMem은 TSLA에서 SR 0.64, AMZN에서 0.19, MSFT에서 0.20. FinAgent는 NFLX에서 -0.42를 찍었다. TradingAgents의 8.21과는 자릿수가 다른 영역이다.
FINSABER가 TradingAgents를 직접 돌리지는 않았다. 다만 같은 결론이 적용될 가능성이 매우 높다는 게 솔직한 추정이다. 3개월짜리 강세장 슬라이스에서 3개 메가캡 종목이라는 표본은 생존자 편향(survivorship bias)과 선택 편향(selection bias)이 동시에 들어 있다. 같은 기간 NASDAQ 100이 어떤 모양이었는지 떠올려 보자. 2024년 1Q는 엔비디아 한 종목이 지수를 끌어 올린 분기였고, AAPL · GOOGL · AMZN 모두 그 트렌드의 직접 수혜자였다. 룰 기반 베이스라인이 바닥을 친 분기이기도 하다. MACD가 AAPL에서 -1.49% 누적수익률을 찍는 분기는 흔하지 않다.
그럼 SR 8.21이 거짓말이냐. 그건 아니다. 저자들은 데이터를 정직하게 보고했고 footnote도 달았다. 다만 그 숫자가 프레임워크의 일반 성능이 아니라 그 3개월 슬라이스에서의 결과라는 게 내가 읽은 결론이다.
그럼 별 5만은 뭐냐
여기가 처음 던진 질문으로 돌아오는 자리다. 수익률이 의심스럽다면 별 5만은 무슨 가치인가.
내 추정은 reproducible한 청사진이라는 쪽이다. 트레이딩 회사 조직을 LLM 멀티에이전트로 옮기는 첫 작동하는 코드 베이스. 9천 개를 넘는 포크 중에 crypto 전용, Alpaca 실거래 연결, 중국 주식 + 국산 LLM 변형이 빠르게 자라고 있는 게 단서다. 사람들은 수익률 결과를 가져가는 게 아니라 조직도와 프롬프트와 LangGraph 그래프를 가져가서 자기 환경에 맞춰 다시 돌려 보고 있다.
여기에 v0.2 시리즈가 더해 놓은 운영 인프라가 결정적이다. 영구 decision log는 모든 결정과 그 사후 실현 수익률을 같은 파일에 묶어 둔다. 다음 회차 분석에서 펀드매니저 프롬프트가 과거의 자기 결정과 그 결과를 같이 본다. 이게 단순 기억이 아니라 프레임워크 자체가 자기 보정 루프를 갖는 구조라는 점에서, 한 번에 한 결정만 내고 끝나는 단발 LLM 트레이더와 결이 다르다. checkpoint resume도 같은 갈래다. 11번의 LLM 호출 중 7번째에서 죽어도 1번부터 다시 안 돌린다. 백테스트 비용이 LLM 토큰값으로 직결되는 환경에서 이 두 가지가 연구용 플랫폼으로서의 가치를 만든다.
그래서 나는 뭘 할 거냐
SR 8.21을 믿고 실제 돈을 넣는 일은 안 한다. FINSABER 결과를 본 다음에는 어떤 LLM 트레이더도 그 단계로는 안 간다.
대신 다음 일주일은 한 종목, 한 달치 데이터로 직접 돌려 볼 생각이다. NVDA로 시작해서 decision log를 매일 읽어 보는 게 첫 단계다. 분석팀 4명이 어떤 리포트를 쓰는지, Bull과 Bear가 무엇을 두고 토론하는지, 리스크팀이 어떻게 강도를 조정하는지, 그 추론 과정이 사람이 같은 종목을 분석할 때 빠뜨리는 자리를 짚어 주는지 보고 싶다.
수익률보다 그쪽이 더 흥미로운 자료다. AI가 사람을 대신하는지가 아니라, 사람이 놓치는 자리를 드러내 주는지. 5만 별이 답하지 않은 질문은 그쪽이다.
참고 자료
- TauricResearch/TradingAgents (GitHub) — 원 저장소, Apache-2.0, v0.2.4 (2026-04-25)
- TradingAgents 논문 (arXiv 2412.20138) — Xiao et al., 2024, AAAI 2025 MARW 워크숍 oral
- Can LLM-based Financial Investing Strategies Outperform the Market in Long Run? (arXiv 2505.07078) — FINSABER, 에든버러 · 성균관 · UCLA, 2025-05
- LangGraph 공식 문서 — TradingAgents 그래프 런타임 기반
- FinMem 저장소 — 대표 LLM 트레이더 비교군
- FinAgent 논문 (arXiv 2402.18485) — KDD 2024, 또 다른 비교군
- Multi-Agent AI in the Real World 워크숍 — TradingAgents oral 발표 자리










