요약하지 않았는데 96.6%가 나왔다, 원문 메모리가 이긴다
AI 메모리는 먼저 요약해야 할까. MemPalace는 원문 그대로 저장하고 의미 검색만으로 LongMemEval R@5 96.6%를 냈다. 이 수치가 왜 중요한지, 어디까지 믿어야 하는지 짚는다.
함께 하는 코딩! 즐거운 코딩!
개발의 즐거움을 나누는 공간입니다. 강좌, 튜토리얼, 실험실에서 다양한 기술을 탐험하세요.
새로운 콘텐츠를 확인하세요
AI 메모리는 먼저 요약해야 할까. MemPalace는 원문 그대로 저장하고 의미 검색만으로 LongMemEval R@5 96.6%를 냈다. 이 수치가 왜 중요한지, 어디까지 믿어야 하는지 짚는다.
2.1.126에서 자동으로 켰던 게이트웨이 /v1/models discovery가 2.1.129에서 환경 변수 옵트인으로 돌아왔다. 2.1.128에서 로컬 HEAD로 바꿨던 EnterWorktree base도 2.1.133의 worktree.baseRef 설정으로 origin 디폴트가 다시 들어왔다. 같은 12 patch 안에 plan mode allow-rule 누수 fix와 settings.autoMode.hard_deny도 도착했다.
5월 4일의 대형 조인트벤처와 5월 5일의 템플릿 출시는 따로 떨어진 뉴스가 아니었다. 금융 AI의 표준 묶음이 무엇인지 한 번에 드러난 사건이었다.
Playwright MCP를 깔면 컨텍스트의 6.8%가 도구 정의로 사라진다. Mario Zechner는 그 흐름을 거꾸로 갔다. 그가 자기 코딩 에이전트 pi에서 빼기로 결정한 일곱 가지를 짚는다.
AutoSkill은 사용자 대화 trace에서 반복 의도를 뽑아 Anthropic Agent Skills 형식의 SKILL.md로 버전 관리한다. 모델 재학습 없이 SkillBank를 키우고 WildChat-1M에서 평생 개인화를 검증한 자가진화 시스템의 설계와 통계를 정리했다.
다섯 에이전트의 셀프플레이로 자연어 스킬을 자동 진화시키는 Ctx2Skill 논문 리뷰. GPT-4.1+Ctx2Skill의 16.5%가 Gemini 3 Pro 단독 15.8%를 넘는 결과로, 모델 크기 대신 스킬이 capability cap을 미는 첫 측정이다.
OpenAI는 Realtime API에 추론, 번역, 전사 모델을 따로 넣었다. 이번 발표의 핵심은 성능 숫자보다 하나로 다 하던 음성 모델을 역할별로 분리한 제품 방향에 있다.
claude project purge 서브커맨드가 transcripts, tasks, file history, config entry를 한 명령으로 묶는다. 같은 2.1.126에서 --dangerously-skip-permissions의 보호 영역이 줄고, /model 피커가 게이트웨이의 /v1/models 응답을 따라가고, OTel skill_activated 이벤트에 invocation_trigger 속성이 붙었다.

TypeScript 입문부터 타입 레벨 프로그래밍까지.

AWS 주요 컴포넌트 16개를 실습 없이 개념과 다이어그램 중심으로 훑는 입문 코스. 각 서비스가 무엇이고 언제 어떻게 쓰는지, 이웃 서비스와 어떻게 엮이는지를 101편에 걸쳐 정리한다. 서울 리전(ap-northeast-2) 기준.
React Query 또는 TanStack Query 공식 문서 한글판을 같이 읽어 봅시다.
Go 언어 문법을 탐험해 보세요.
CLI 앱의 핵심! Swift Argument Parser 한글 가이드 문서입니다.
모듈과 의존성 관리를 위한 Swift 패키지 매니저 한글 가이드 문서입니다.
Swift 언어의 기초부터 고급 기법까지 배울 수 있는 필수 공식 입문서
Swift 문법을 탐험해 보세요.
git 의 필수 명령어를 배울 수 있는 과정입니다.
어디에서나 쓰이는 만능 언어 파이썬! 같이 시작해 보아요!