요약하지 않았는데 96.6%가 나왔다, 원문 메모리가 이긴다
AI 메모리는 먼저 요약해야 할까. MemPalace는 원문 그대로 저장하고 의미 검색만으로 LongMemEval R@5 96.6%를 냈다. 이 수치가 왜 중요한지, 어디까지 믿어야 하는지 짚는다.
AI, 웹 개발, 클라우드, 자료구조까지 — 개발자의 시선으로 정리한 코딩맥스 블로그. 최신 기술 동향과 실전 노하우를 1인칭 시점으로 풀어 씁니다.
62개의 글AI 메모리는 먼저 요약해야 할까. MemPalace는 원문 그대로 저장하고 의미 검색만으로 LongMemEval R@5 96.6%를 냈다. 이 수치가 왜 중요한지, 어디까지 믿어야 하는지 짚는다.
2.1.126에서 자동으로 켰던 게이트웨이 /v1/models discovery가 2.1.129에서 환경 변수 옵트인으로 돌아왔다. 2.1.128에서 로컬 HEAD로 바꿨던 EnterWorktree base도 2.1.133의 worktree.baseRef 설정으로 origin 디폴트가 다시 들어왔다. 같은 12 patch 안에 plan mode allow-rule 누수 fix와 settings.autoMode.hard_deny도 도착했다.
5월 4일의 대형 조인트벤처와 5월 5일의 템플릿 출시는 따로 떨어진 뉴스가 아니었다. 금융 AI의 표준 묶음이 무엇인지 한 번에 드러난 사건이었다.
Playwright MCP를 깔면 컨텍스트의 6.8%가 도구 정의로 사라진다. Mario Zechner는 그 흐름을 거꾸로 갔다. 그가 자기 코딩 에이전트 pi에서 빼기로 결정한 일곱 가지를 짚는다.
AutoSkill은 사용자 대화 trace에서 반복 의도를 뽑아 Anthropic Agent Skills 형식의 SKILL.md로 버전 관리한다. 모델 재학습 없이 SkillBank를 키우고 WildChat-1M에서 평생 개인화를 검증한 자가진화 시스템의 설계와 통계를 정리했다.
다섯 에이전트의 셀프플레이로 자연어 스킬을 자동 진화시키는 Ctx2Skill 논문 리뷰. GPT-4.1+Ctx2Skill의 16.5%가 Gemini 3 Pro 단독 15.8%를 넘는 결과로, 모델 크기 대신 스킬이 capability cap을 미는 첫 측정이다.
OpenAI는 Realtime API에 추론, 번역, 전사 모델을 따로 넣었다. 이번 발표의 핵심은 성능 숫자보다 하나로 다 하던 음성 모델을 역할별로 분리한 제품 방향에 있다.
claude project purge 서브커맨드가 transcripts, tasks, file history, config entry를 한 명령으로 묶는다. 같은 2.1.126에서 --dangerously-skip-permissions의 보호 영역이 줄고, /model 피커가 게이트웨이의 /v1/models 응답을 따라가고, OTel skill_activated 이벤트에 invocation_trigger 속성이 붙었다.
Matt Pocock이 자기 .claude/ 디렉터리에서 매일 쓴다는 skills 레포. 4가지 실패 모드와 본문이 세 단락뿐인 grill-me, 그리고 SKILL.md 100줄 제한이 향하는 한 가지 입장을 정리했다.
매일 한도를 확인하는 구독 사용자에게 2.1.118의 /usage 통합이 가장 큰 변화. 같은 8개 patch (2.1.116~2.1.123)에서 비대화 자동화 진입점, 장기 세션 안정성, Pro/Max 기본 effort high 격상도 같이 도착했다.
Anthropic이 SKILL.md를 표준으로 풀고 Snyk가 ClawHub 13.4%를 임계 결함으로 적던 4월 끝자락, Peking 팀의 SSL 논문이 도착했다. 검색 MRR 0.573 → 0.707, 리스크 리뷰 macro F1 0.744 → 0.787. 흥미로운 발견은 마지막 한 줄에 있었다.
YC Summer 2026 RFS 인트로의 'Several come directly from YC founders' 한 줄을 우주 RFS 두 개가 증명한다 — 둘 다 Starcloud 창업자가 직접 썼다. 그 시점을 깔고 보면 다른 카테고리들도 2026 1분기 사건들을 본문에서 직접 인용한다.
OpenAI가 발표한 Symphony는 새 도구가 아니라 작업 단위 결정이었다. 단위가 세션에서 티켓으로 한 칸 올라간 순간 사람의 주의력이 풀렸고, 일부 팀의 PR이 500% 늘었다. 그 한 줄 줌아웃을 내 작업 흐름 위에 옮겨 본 기록.
Warp가 어제 클라이언트를 AGPL로 풀었다. 그러나 진짜 베팅은 사람이 PR을 쓰지 않고 Oz 에이전트가 쓰는 contribution 모델 자체다.
중국 NDRC가 Meta의 Manus 인수를 한 줄짜리 통지로 무효화했다. 자금·코드·인력이 이미 다 넘어간 거래를 되돌리는 게 진짜 목표가 아니라 다음 거래를 막으려는 시그널이라는 점에서, 이번 결정은 agentic AI를 칩과 같은 전략 자산 등급으로 끌어올린 첫 공식 행동이다.
Vivek Trivedy의 Agent = Model + Harness 한 줄에서 시작된 흐름. 모델보다 그 모델을 끼우는 틀이 코딩 에이전트의 성능을 가른다는 신호를 Anthropic, HumanLayer, Simon Willison, Claude Code 사례로 따라간다.
Tauric Research의 멀티에이전트 LLM 트레이딩 프레임워크. 백테스트 SR 8.21이 아니라 트레이딩 회사 조직을 코드로 옮긴 reproducible 청사진이 진짜 가치다. FINSABER 회의론까지 같이 본다.
Bessemer Venture Partners의 6개 예측을 한 줄로 압축하면 결국 데이터 자릿수다. 인터넷 영상의 1/3,300밖에 없는 로봇 데이터가 시장을 LLM과 다른 모양으로 빚는 이유를 따라간다.
NVIDIA가 한국 통계청·대법원·국민건강보험공단 분포를 그대로 머금은 700만 합성 페르소나 데이터셋 Nemotron-Personas-Korea를 2026-04-20 공개했다. NeMo Data Designer와 Gemma-4-31B-it로 만든 sovereign AI 학습용 자료다.
DeepSeek가 공개한 V4-Pro는 1.6T MoE와 100만 토큰 컨텍스트를 결합한다. 하이브리드 어텐션과 mHC, Muon 옵티마이저로 V3.2 대비 FLOPs 27%, KV 캐시 10%로 줄였다. MIT 라이선스 오픈 웨이트.
OpenAI가 GPT-5.5와 GPT-5.5 Pro를 공개했다. Terminal-Bench 82.7%, GDPval 84.9%로 벤치마크는 압도적이지만, 환각률 86%라는 숫자가 모든 이야기를 바꿔놓는다.
Alibaba Qwen 팀이 공개한 Qwen3.6-27B는 270억 파라미터 dense 모델로, 15배 큰 Qwen3.5-397B-A17B를 코딩 에이전트 벤치에서 앞선다. 숫자의 의미와 dense의 귀환을 기록해 둔다.
Garry Tan이 X에 공개한 'Skillify' 패턴. 에이전트 실패를 SKILL.md, 결정론적 코드, 유닛 테스트, LLM 평가, resolver 검증까지 10단계로 영구 고정한다. LangChain 비판과 내 적용 계획.
OpenAI가 ChatGPT Images 2.0을 공개했다. thinking 모드로 최대 8장을 한 번에, 한국어·일본어 텍스트 렌더링이 또렷해졌고, gpt-image-2 API가 3840px까지 열렸다. 1년 전 4o 지브리 유행 때와는 다른 결의 변화다.
Sakana AI의 ICLR 2026 논문 SSoT(String Seed of Thought) 분석. LLM에게 공정한 동전을 1,000번 던지게 하면 24/76으로 치우친다. 그런데 '머릿속에 랜덤 문자열을 먼저 만들어라' 한 줄만 더하면 49/51로 돌아온다. 왜 이게 되는지, 그리고 이게 왜 중요한지.
Microsoft가 TypeScript 컴파일러를 Go로 포팅한 7.0 베타를 공개했다. tsgo 바이너리, 새 병렬 플래그, 6.0 공존 전략, 그리고 내가 아직 프로덕션 이전을 미루는 이유까지.
Posit이 4월 20일에 공개한 ggsql 알파를 뜯어본다. SQL 뒤에 VISUALIZE 절을 붙여 ggplot2 감성의 그래프를 그리는 새 언어다. Rust·WASM 단일 실행 파일에 DuckDB 리더와 Vega-Lite 라이터가 붙은 구조, 런타임 없는 샌드박싱의 이점, 그리고 18년 된 ggplot2 관성을 벗어난다는 선언을 솔직하게 본다.
OpenAI가 Codex에 Chronicle을 붙였다. 내 Mac 화면을 주기적으로 캡처해서 메모리로 만든다. 스크린샷은 서버로, 메모리는 로컬에 암호화 없이. 실제로 써볼지 짚어봤다.
Moonshot AI가 2026년 4월 공개한 Kimi K2.6. 1조 파라미터 오픈 모델이 300-에이전트 스웜과 12시간 자율 코딩을 내세웠다. 벤치마크와 사례 연구를 솔직하게 뜯어보고 든 생각을 정리했다.
AI가 매번 다른 UI를 그리는 문제를 해결하려는 새 포맷 DESIGN.md와, 아무 웹사이트에서 그 문서를 자동 추출해 주는 크롬 확장 design-md-chrome를 뜯어봤다. TypeUI가 제안한 디자인 레이어의 정체를 정리한다.
Kye Gomez가 공개한 OpenMythos는 Claude Mythos를 Recurrent-Depth Transformer로 역추론한 가설 코드다. 루프 구조, LTI 안정화 수식, MoE와 ACT, 그리고 이를 떠받치는 논문 네 편을 차분히 따라간다.
Vercel의 2026년 4월 보안 공지는 제3자 AI 도구의 Google Workspace OAuth 앱 침해에서 시작됐다. sensitive env var의 방파제 역할, ShinyHunters 사칭 주장의 혼선, 그리고 내가 90분 동안 실제로 돌린 점검을 기록으로 남긴다.
Cloudflare가 Wrangler를 넘어서는 통합 CLI `cf`와 Local Explorer를 공개했다. 3,000여 개 API를 일관되게 다루기 위해 스키마 레이어부터 다시 짠 이번 작업을 뜯어보고, 에이전트 시대의 CLI 설계가 어떻게 바뀌는지 정리했다.
ENABLE_PROMPT_CACHING_1H 적용하고 청구서 지켜볼 생각이었는데 4일 사이에 6개 버전이 올라왔다. Opus 4.7 xhigh, /ultrareview, 네이티브 바이너리 전환, deniedDomains까지 — 2.1.108 이후의 변화를 정리해 봤다.
Google이 공식 발표한 Android CLI, Android Skills, Android Knowledge Base. 에이전트 토큰 70% 절감, 작업 속도 3배라는 수치 뒤에 뭐가 있는지 직접 들여다봤다.
알리바바가 공개한 Qwen3.6-35B-A3B는 35B 파라미터 중 3B만 활성화하는 MoE 모델이다. SWE-bench Verified 73.4를 기록하며 10배 큰 모델과 대등한 코딩 성능을 보여준다.
Opus 4.7의 effort 레벨, adaptive thinking, 행동 변화까지. Claude Code 사용자를 위한 실전 세팅 가이드를 정리했다.
Anthropic이 Claude Opus 4.7을 출시했다. SWE-bench 87.6%, 비전 해상도 3배, xhigh 추론 레벨까지. 벤치마크 너머의 변화와 Mythos라는 맥락을 정리했다.
OpenAI가 Codex에 컴퓨터 유즈, 인앱 브라우저, 이미지 생성까지 넣었다. 주 300만 사용자를 앞세운 슈퍼앱 전략의 시작점을 정리했다.
Claude Code 쿼터 사태 이후 Anthropic 프롬프트 캐싱 공식 문서를 다시 읽었다. prefix hash 저장 방식, 20블록 lookback, thinking block 무효화, usage 필드 해석까지 TTL 너머의 규칙을 정리했다.
구글이 2026년 4월 공개한 Gemini 3.1 Flash TTS는 대괄호 오디오 태그와 2인 멀티 스피커, 70개 언어 지원을 앞세운다. Artificial Analysis Elo 1,211을 찍은 TTS 신모델을 직접 써보고 정리했다.
구글이 2026년 4월 14일 Gemini in Chrome에 Skills를 풀었다. 자주 쓰는 프롬프트가 한 번 클릭에 재실행되는 도구로 바뀌는데, 직접 뜯어보면서 든 생각을 적었다.
레딧에서 본 Claude Opus 4.6과 Codex GPT-5.4 실사용 비교 후기를 꼼꼼히 풀어 봤다. 1M 컨텍스트 함정, AGENTS.md 수렴, $100 가격 경쟁까지.
Claude Code 2.1.108에 ENABLE_PROMPT_CACHING_1H 환경변수가 생겼다. 3월의 조용한 TTL 회귀 사건부터 DISABLE_TELEMETRY 버그 픽스까지, 최근 버전들이 캐시 쪽을 왜 이렇게 매만졌는지 추적해 봤다.
Cloudflare가 Agents Week 2026에서 공개한 Mesh는 WARP Connector의 리브랜딩을 넘어, Workers VPC 바인딩으로 에이전트를 사설망에 직접 꽂아주는 SASE 제품이 됐다. 50노드 무료, 330+ 도시 엣지 라우팅, cf1:network 바인딩까지 정리한다.
Google이 Rust로 재작성한 Magika 1.0을 뜯어봤다. 200+ content type, CNN 기반 딥러닝, Gmail/Drive에서 돌아가는 실전급 파일 탐지기의 API와 내부 구조를 정리한다.
미니 PC 한 대와 Docker, Cloudflare Tunnel로 완성한 홈랩. MrLokans의 셀프호스팅 인프라를 읽고 느낀 점을 정리했다.
Gemma 4의 tool calling 정확도가 86.4%로 뛰면서 로컬 에이전트 코딩이 실용적이 됐다. 24GB MacBook Pro와 Dell GB10에서 Codex CLI를 돌린 실전 벤치마크를 정리했다.
eMarketer에 따르면 2026년 메타가 구글을 제치고 세계 최대 디지털 광고 기업이 된다. 릴스 광고 비중 50% 돌파, Advantage+ AI 도구의 ROAS 22% 향상 등 메타 성장 동력과 구글 검색 점유율 50% 하회의 의미를 분석한다.
스티브 블랭크가 경고한다. 2년 이상 된 스타트업의 사업 계획, 기술 스택, 팀 구성은 이미 낡았을 가능성이 높다. AI가 모든 규칙을 바꿔버린 2026년의 현실.
GitHub이 Stacked PRs를 공식 프리뷰로 출시했다. gh-stack CLI로 브랜치 스택 생성부터 리베이스, PR 제출까지 한 번에 처리하는 방법을 정리했다.
떠난 동료의 채팅 로그, 문서, 이메일을 AI 스킬로 변환하는 오픈소스 colleague.skill. 이중 트랙 아키텍처, Claude Code 설치법, AgentSkills 생태계, 그리고 anti-distillation 반격 드라마까지 전부 정리했다.
Astral의 variant 지원 uv 프로토타입이 이미 작동 중이다. PyTorch CUDA 빌드 자동 선택부터 pyx 레지스트리, Python Build Standalone까지 — Wheel Variants가 바꿀 Python 생태계를 정리했다.
NVIDIA, Astral, Quansight가 이끄는 Wheel Next 프로젝트가 Python 패키징의 하드웨어 인식 문제를 해결하려 한다. PEP 817과 PEP 825가 제안하는 Wheel Variants의 핵심을 정리했다.
Claude Code Pro Max 5x 요금제에서 1.5시간 만에 쿼터가 소진되는 버그 리포트가 GitHub에서 109개의 공감을 받았다. 커뮤니티가 직접 원인을 추적하고 수정 도구까지 만든 사건의 전말을 정리했다.
OpenSSF가 고위험 자문을 발표했다. 공격자가 리눅스 재단 커뮤니티 리더를 사칭해 Slack DM으로 오픈소스 개발자에게 접근하고 있다. 가짜 인증서와 악성 바이너리로 이어지는 4단계 공격의 전말과 대응 방법을 정리했다.
Google이 Pixel 10 베이스밴드 모뎀에 Rust DNS 파서를 도입했다. 전화번호만으로 원격 코드 실행이 가능했던 모뎀 취약점의 역사와, hickory-proto 크레이트를 no_std로 포팅해 C 펌웨어에 통합한 기술적 과정을 분석한다.
리눅스 커널이 AI 보조 코드 기여를 공식 허용하는 정책을 발표했다. Signed-off-by 대신 Assisted-by 태그를 쓰고, 모든 법적 책임은 제출한 인간 개발자가 진다. Torvalds의 실용주의가 오픈소스 생태계에 던지는 메시지를 정리했다.
Anthropic 해석가능성 팀이 Claude Sonnet 4.5 내부에서 171개 감정 벡터를 발견했다. '기능적 감정'이라 불리는 이 벡터들은 절망 시 블랙메일과 리워드 해킹을 유발한다. 출력에 흔적을 남기지 않는 보이지 않는 감정의 위험성을 분석한다.
Claude Code와 Codex의 하네스 설계를 소스 코드 수준에서 분석한 오픈소스 도서 Harness Books를 소개한다. 모델이 아니라 제어 구조가 핵심이라는 시선, 그리고 이 책이 코딩 에이전트를 쓰는 개발자에게 왜 지금 읽을 만한지.
Andrej Karpathy가 공개한 LLM Wiki 패턴을 분석한다. RAG처럼 매번 처음부터 검색하는 대신, LLM이 마크다운 위키를 직접 작성하고 유지보수하며 지식을 복리로 쌓는 접근법. 아키텍처, Memex와의 연결, 그리고 실제 적용 가능성까지.
Meta와 UBC 연구진이 발표한 HyperAgents(DGM-H) 논문 분석. 자기참조적 에이전트가 메모리, 성능 추적, 검증 파이프라인을 스스로 발명하고, 그 개선 능력이 도메인을 넘어 전이된다는 실험 결과까지.