🔥 DynamoDB란 무엇인가: 키-값 스토어의 관점

1635자

19분

강의 목차

DynamoDB는 키-값과 문서를 다루는 NoSQL이다
인스턴스 대신 데이터 분산을 관리한다
설계 순서가 RDBMS와 다르다
'단일 디지트 ms 지연'이 뜻하는 것
항목에는 크기 제약이 있다
DynamoDB가 잘 맞지 않는 경우
DynamoDB를 볼 때 먼저 붙잡을 것

16:9 가로 표지 일러스트레이션. 흰 배경. 가운데에 슬레이트-그레이 데이터베이스 서버 캐비넷 윤곽선이 있고 안에 세 갈래의 partition slice가 쌓여 있다. 캐비넷 양쪽에는 AZ-A, AZ-B, AZ-C 라벨이 붙은 둥근 사각형 세 개가 있고, 가는 화살표가 각 partition slice와 연결된다. 캐비넷 왼쪽에는 키 아이콘이 있고, 좌상단에는 'DynamoDB · key-value store' 캡션이 있다.

처음 RDS for MySQL 인스턴스에 사용자 테이블을 하나 만들었다. 한 달 뒤 ALTER TABLE users ADD COLUMN ...를 실행했더니 테이블에 행이 천만 개를 넘는 순간 ALTER가 락을 잡고 오래 멈췄다. RDS가 MySQL 설치와 백업, 패치, failover는 대신하지만 스키마를 바꾸는 비용은 내가 그대로 감당한다는 걸 그때 알았다.

비슷한 시기에 사이드 프로젝트 하나에서 RDS 대신 DynamoDB를 붙였다. 같은 사용자 테이블에 컬럼을 하나 더 넣을 때도 DynamoDB에서는 새 attribute 이름을 다음 PutItem부터 같이 쓰면 끝이었다. 기존 행에는 그 attribute가 없는 상태로 남고 마이그레이션 락도 없었다. 대신 'X 사용자가 어제 가입한 사람들 중 이메일 도메인이 gmail인 사람' 같은 질문은 SQL 한 줄로 바로 답하지 못했다. 운영 비용이 한쪽에서 다른 쪽으로 옮겨간 셈이다.

먼저 볼 것은 세 가지다. DynamoDB가 어떤 서비스인지, 왜 이런 설계를 택했는지, 그리고 어떤 워크로드에 맞는지다.

DynamoDB는 키-값과 문서를 다루는 NoSQL이다

DynamoDB는 AWS가 2012년 1월 18일 출시한 fully managed NoSQL 데이터베이스다. AWS 공식 문서는 DynamoDB를 'key-value and document database'로 설명한다. 가장 흔한 사용 방식은 키 하나로 항목 하나를 가져오는 키-값 스토어다. 여기에 attribute 안에 list와 map을 중첩해 문서처럼 저장할 수도 있다.

출발점은 논문 한 편이다. Werner Vogels는 자기 블로그에서 그 논문을 따로 짚었다. 2007년 10월 ACM SOSP에서 발표한 'Dynamo: Amazon's Highly Available Key-value Store' 논문이다. 2007년의 Amazon은 검색 카탈로그, 장바구니 같은 내부 워크로드를 RDBMS로 굴리다 한계를 만났다. RDBMS의 ACID 보장과 SQL 표현력은 강력하지만, 키 한 개로 항목 하나를 빠르게 가져오는 단순한 워크로드에서는 그 보장의 비용이 너무 컸다. 그래서 SQL을 빼고, 조인을 빼고, 강한 일관성 대신 최종적 일관성(eventual consistency)을 default로 두고, 클러스터를 수평 확장하는 데 모든 자원을 쓰는 별도 시스템을 만들었다. 그게 Dynamo다. DynamoDB는 그 Dynamo가 보여 준 설계 원칙 위에서 외부 API와 관리형 인프라를 얹어 다시 내놓은 서비스다.

여기서 '키-값'이라는 형용사가 일을 한다. RDBMS는 데이터의 관계를 우선 모델링하고, 쿼리는 그 관계 위에서 자유롭게 조립한다. DynamoDB는 그 반대다. 미리 정해 둔 키 하나로 항목 하나를 가져오는 동작을 가장 빠르게 만드는 데에 모든 설계가 맞춰져 있다. 그래서 SQL이 아니라 GetItem, PutItem, Query, Scan 같은 좁은 API 집합으로 데이터에 접근한다. 각 API는 table 이름과 키, 그리고 condition expression 같은 구조화된 입력을 받는다.

DynamoDB가 NoSQL 키-값 스토어로서 가진 입장. 왼쪽에 RDBMS의 관계형 모델(테이블·외래키·SQL)을 표현한 작은 다이어그램, 오른쪽에 DynamoDB의 키-값 모델(Partition Key → Item 한 개)을 표현한 다이어그램이 나란히 배치되고, 중앙에 'access pattern first' 캡션. 16:9, 흰 배경, 슬레이트-그레이와 AWS-orange 톤, 모던 플랫 미니멀 에디토리얼.

인스턴스 대신 데이터 분산을 관리한다

RDS가 자동으로 굴리는 일곱 가지, provisioning, patching, backup, failure detection, recovery, monitoring, scaling은 지난 섹션의 첫 글에서 정리했다. DynamoDB는 그 자동화 범위를 인스턴스 관리보다 더 아래 단계까지 넓힌다.

RDS에서는 인스턴스 타입을 내가 고른다. db.t4g.micro인지 db.r6g.4xlarge인지, vCPU와 메모리가 몇인지 정한 뒤 그 위에서 DB 엔진을 돌린다. 트래픽이 늘면 인스턴스를 더 큰 타입으로 바꾸거나(scale up) 읽기 replica를 추가하는(scale out) 일도 내가 맡는다. DynamoDB에는 그 단계가 없다. 인스턴스 타입을 고르는 화면이 없고, vCPU 같은 단위도 청구서에 보이지 않는다. 처리량은 Provisioned 모드의 read/write capacity units나 On-Demand 모드의 read/write request units로 계산하고, 스토리지는 쓴 만큼 계속 늘어난다. 두 모드의 차이와 청구는 On-Demand vs Provisioned: 가격 모델에서 자세히 본다.

DynamoDB 내부에서는 인스턴스 대신 데이터 분산 구조가 그 역할을 맡는다. 한 테이블은 여러 partition으로 나뉜다. 각 partition은 SSD에 저장하고, AWS는 같은 region 안 여러 가용영역에 그 데이터를 자동으로 복제해 둔다. 클라이언트 요청은 AWS Database Blog가 'request router'라고 부르는 라우팅 계층이 받고, partition key 범위가 어느 storage node에 있는지 metadata subsystem에서 찾은 뒤 그 노드로 보낸다. 더 깊은 내부 구조는 일부 자료에 단편적으로 공개돼 있다. 여기서는 사용자가 직접 만지는 부분까지만 본다.

DynamoDB 아키텍처 개요. 위에서 아래로 Client → Request Router → MemDS(metadata cache) → Storage Node 3개(AZ-A·AZ-B·AZ-C에 복제) → S3(write-ahead log archive) 다섯 단계가 쌓여 있고, Request Router와 MemDS 사이에 'partition key → storage node 매핑' 캡션, 세 storage node 위에 'leader / follower / follower' 표시.

사용자는 이 구조를 직접 보지 않는다. 내가 만지는 것은 테이블 이름, partition key 이름, 그리고 GetItem / Query API다. RDS에서는 OS와 DB 엔진을 직접 다루지 않아도 되지만, DynamoDB에서는 인스턴스 개념 자체를 아예 의식하지 않는다. 대신 데이터는 partition key 기준으로 고르게 나눠야 한다. 운영 부담이 인스턴스 관리에서 데이터 설계로 옮겨간다는 말은 이 뜻이다.

RDS와 DynamoDB의 운영 부담 비교. 두 개의 양팔 저울이 나란히 놓여 있고, 왼쪽 저울 라벨 'RDS'에서는 OS·patch·failover 박스가 가벼운 쪽 접시에, schema·migration·ALTER 박스가 무거운 쪽 접시에 쌓여 후자가 기울어 있다. 오른쪽 저울 라벨 'DynamoDB'에서는 OS·patch·instance 박스가 거의 비어 있고 access pattern·key design·data modeling 박스가 반대쪽 접시에서 무겁게 기울어 있다. 아래쪽 sky-blue 캡션 'operational burden moves from runtime to data design'.

설계 순서가 RDBMS와 다르다

RDBMS와 DynamoDB는 설계 순서가 반대다.

RDBMS에서는 도메인의 관계를 먼저 모델링한다. 사용자, 주문, 상품, 결제 같은 대상을 정규화 규칙에 따라 테이블로 나누고 외래키로 연결한다. 어떤 쿼리가 올라올지는 나중에 정해도 된다. SQL의 표현력이 넓어서 새 요구는 대체로 SELECT 한 줄이나 인덱스 추가로 대응할 수 있다.

DynamoDB는 반대 순서로 설계한다. 먼저 어떤 access pattern이 들어올지를 적고, 그 access pattern을 가장 빠르게 처리하는 키 구조를 만든다. GetItem은 키 하나로 항목 하나를 읽고, Query는 partition key를 고정한 채 sort key 범위를 읽는다. secondary index는 다른 조회 경로를 추가할 때 쓴다. 이 범위를 벗어난 ad-hoc 조회는 결국 Scan이 되기 쉽고, 비용도 크고 속도도 느리다.

RDBMS와 DynamoDB의 설계 순서 비교. 왼쪽 RDBMS는 위에서 아래로 Schema → Relations → Queries 화살표. 오른쪽 DynamoDB는 Access Patterns → Key Design → Schema 화살표. 두 그림이 서로 반대 방향임을 강조.

이 차이는 access pattern이 분명한 워크로드에서는 장점이 된다. '사용자 ID로 그 사용자의 최근 주문 50건 가져오기'가 매 초 수만 번 들어오면 DynamoDB는 partition key 하나로 바로 처리할 수 있다. 그래서 카트, 세션, 게임 상태, IoT 디바이스 상태처럼 키 한 개로 나뉘는 워크로드에서 평균 응답이 단일 디지트 ms로 잘 나오는 경우가 많다. 반대로 access pattern이 자주 바뀌는 워크로드에서는 약점이 된다. 처음 나온 질문에 바로 답하기 어렵고, 별도 색인을 만들거나 데이터를 다시 적재하거나 OpenSearch / Athena / Redshift 같은 다른 도구로 넘겨야 할 수 있다.

'단일 디지트 ms 지연'이 뜻하는 것

DynamoDB 마케팅 문구에서 자주 보이는 '단일 디지트 millisecond 지연'은 서비스 내부 지표를 말한다.

CloudWatch에는 SuccessfulRequestLatency라는 메트릭이 있다. GetItem이나 Query 같은 singleton 동작이 DynamoDB 서비스 안에서 처리된 시간을 ms 단위로 기록한다. AWS 공식 문서는 대부분의 singleton 동작에서 평균 SuccessfulRequestLatency가 한 자릿수 ms 수준으로 나온다고 설명한다. 이 표현은 평균 기준이다. p99 같은 꼬리 지연까지 한 자릿수 ms라고 보장하는 말은 아니다.

중요한 점은 이 숫자가 서버 측에서 측정한 시간이라는 사실이다. 공식 문서는 클라이언트 측 동작과 네트워크 왕복 시간은 이 메트릭에 포함되지 않는다고 적는다. 그래서 'DynamoDB가 단일 디지트 ms'라는 말과 '내 애플리케이션 응답 시간이 단일 디지트 ms'라는 말은 다르다. 전자는 서비스 내부 처리 시간을 가리킨다. 후자는 클라이언트와 DynamoDB 사이 거리와 네트워크 왕복 시간까지 포함한다. 같은 region 안 EC2에서 붙을 때와 다른 region에서 붙을 때의 차이는 직접 측정해야 한다.

단일 디지트 ms 지연의 분리. 왼쪽에 Client(EC2 같은 region) → DynamoDB API 라인이 있고, 그 사이에 'network round trip ~1ms (서울 region 안)' 캡션. 오른쪽에 DynamoDB 내부 박스가 있고 'SuccessfulRequestLatency: 1–9ms server-side' 캡션. 둘이 더해진 '클라이언트가 본 응답 시간'이 별도 라인으로 표시.

DAX(DynamoDB Accelerator)라는 in-memory 캐시 옵션이 있다. AWS 공식 DAX 문서는 캐시 히트에서 microsecond 단위 응답이 가능하다고 설명한다. 다만 DAX는 VPC 안에서 별도 클러스터로 운영해야 한다. 여기서는 이름과 역할만 기억하면 충분하다.

항목에는 크기 제약이 있다

DynamoDB의 한 항목(item)이 가질 수 있는 최대 크기는 400 KB다. 400 KB는 모든 attribute의 이름과 값을 합산한 항목 크기 기준이다. 정확한 계산은 'DynamoDB Item sizes and formats' 문서에 적혀 있고, 대체로 attribute 이름의 UTF-8 byte 길이와 값의 binary 길이의 합으로 보면 큰 어긋남은 없다. 키 자체에도 별도 제약이 있다. partition key의 attribute 값은 최대 2,048 bytes, sort key의 attribute 값은 최대 1,024 bytes다. 모두 공식 문서 'Constraints in Amazon DynamoDB'에 같은 숫자가 적혀 있다.

400 KB라는 숫자가 의도적으로 작다. 한 항목에 1MB짜리 이미지 파일이나 긴 로그 본문을 통째로 넣으려 하면 여기서 한도와 부딪힌다. AWS 공식 가이드 'Best practices for storing large items and attributes in DynamoDB'는 큰 객체는 S3에 두고 DynamoDB에는 그 S3 객체의 식별자만 적어 두라고 권한다. 이건 단순히 비용 절감의 문제가 아니다. DynamoDB는 한 항목을 400 KB 안에 묶어 두는 전제 위에서 그 응답 시간을 보장한다. 한 항목이 수 MB로 커지면 single-digit ms로 가져올 수 없다. 그래서 한도가 있다.

내 워크로드에서 한 항목이 50 KB 정도라면 400 KB 한도까지 8배 여유가 있다. 한 항목이 250 KB라면 여유는 1.6배다. 이 계산은 attribute를 계속 붙이는 방식이 언제 한도와 충돌하는지 보여 준다. 한 사용자의 활동 로그를 하나의 item에 계속 누적하면 결국 400 KB를 넘긴다. 그 경우에는 partition key는 유지하고 sort key로 여러 item으로 나누는 설계가 필요하다.

DynamoDB 한 item의 크기 제약. 가운데에 'DynamoDB item, max 400 KB' 라벨이 붙은 둥근 사각형이 있고, 박스 위쪽에는 partition key 최대 2,048 bytes / sort key 최대 1,024 bytes라는 작은 키 아이콘 캡션 두 개, 아래쪽에는 attribute 이름과 값 예시(name=alice, plan=pro 등) 몇 줄이 적혀 있다. 박스 오른쪽 바깥에 generic S3 bucket 아이콘이 있고, 사이를 sky-blue 화살표가 'large objects to S3'라는 라벨과 함께 잇는다.

DynamoDB가 잘 맞지 않는 경우

DynamoDB는 이 데이터에 어떤 access pattern이 들어올지 미리 정할 수 있는 워크로드에 잘 맞는다. 반대로 처음 본 질문에 ad-hoc으로 답해야 하는 워크로드, 임의 컬럼 조합으로 조인이 필요한 워크로드, 분석 쿼리가 주된 사용 패턴인 워크로드에는 잘 맞지 않는다. 처음 access pattern을 못 정하면 DynamoDB를 고르기 어렵다.

DynamoDB를 볼 때 먼저 붙잡을 것

DynamoDB를 이해할 때는 세 가지만 먼저 붙잡으면 된다. 키-값 중심 모델이라는 점, 인스턴스 대신 partition 단위 분산 구조를 쓴다는 점, 그리고 access pattern을 미리 정해야 한다는 점이다. 이 세 가지를 잡아 두면 partition key와 sort key를 설계할 때 왜 데이터보다 access pattern을 먼저 정해야 하는지 이해하기 쉽다.

⚡️ 시작하기

○ 이 101편을 어떻게 읽어야 할까

⚡️ IAM — 자격증명과 권한

○ IAM이란 무엇인가 — 계정 보안의 문지기

○ User, Group, Role — 세 가지 주체의 차이

○ Policy — JSON으로 권한을 표현하는 법

○ 정책 평가 흐름 — Allow와 Deny가 만나면

○ Assume Role — 임시 자격증명이 만들어지는 순간

○ Instance Profile — EC2는 IAM을 어떻게 얻는가

○ IAM Access Analyzer — 과권한을 탐지하는 법

○ Organizations와 SCP — 조직 전체 권한 제어

○ IAM Identity Center — 사람 계정을 관리하는 현대적 방법

○ IAM 실수 모음 — 프로덕션에서 마주치는 권한 함정

⚡️ VPC — 가상 네트워크

○ VPC란 무엇인가 — 가상 네트워크의 경계

○ Subnet — Public과 Private의 진짜 차이

○ 라우팅 테이블 — 패킷이 어디로 가는지

○ Internet Gateway — 외부로 나가는 유일한 길

○ NAT Gateway — Private Subnet의 외부 연결

○ Security Group — 인스턴스 레벨 방화벽

○ Network ACL — Subnet 레벨 방화벽과의 차이

○ VPC Peering과 Transit Gateway — VPC를 잇는 두 방법

○ VPC Endpoint — S3·DynamoDB에 나가지 않고 접근하기

○ VPC 설계 패턴 — 3-tier, Hub-and-Spoke, 그 외

⚡️ CloudWatch — 관측

○ CloudWatch란 무엇인가 — AWS의 관측 허브

○ Metric — 숫자 하나가 찍히는 흐름

○ Alarm — 임계값을 걸고 알림을 받는 법

○ Logs — 구조화 로그와 인덱싱 관점

○ Logs Insights — 로그에 쿼리를 날리는 법

○ Dashboard — 여러 지표를 한 화면에

○ Events — EventBridge의 이전 이름과 현재

○ Synthetics — 엔드포인트 가용성 모니터링

○ X-Ray — 분산 트레이싱의 출발점

○ Observability 비용 함정 — 관찰하는 데 돈이 새는 이유

⚡️ EC2 — 가상 서버

○ EC2란 무엇인가 — 가상 머신의 추상 계층

○ 인스턴스 타입 — CPU·메모리·네트워크의 조합

○ AMI — 머신 이미지의 라이프사이클

○ EBS vs Instance Store — 디스크는 어디 붙어 있는가

○ Spot, On-Demand, Reserved — 세 가지 가격 모델

○ Auto Scaling Group — 수요에 따라 늘리고 줄이는 법

○ Load Balancer — ALB·NLB·GWLB의 역할

○ 언제 EC2가 아닌 다른 걸 써야 하는가

⚡️ Lambda — 서버리스 함수

○ Lambda란 무엇인가 — 서버리스의 경계

○ Handler와 실행 모델 — 이벤트가 들어오면

○ 실행 역할과 최소 권한 — Lambda의 IAM

○ Cold Start — 왜 첫 호출이 느린가

○ 동시성과 Reserved Concurrency — 폭주를 막는 법

○ 트리거 종류 — API Gateway·SQS·EventBridge·S3

○ Lambda와 VPC — Private 리소스에 접근하는 비용

○ 언제 Lambda가 아닌 ECS/Fargate를 써야 하는가

⚡️ S3 — 오브젝트 스토리지

○ S3란 무엇인가 — 오브젝트 스토리지의 구조

○ 버킷과 키 — 플랫 네임스페이스의 의미

○ 버전 관리와 삭제 마커 — 실수로부터 복구

○ 스토리지 클래스 — Standard·IA·Glacier의 차이

○ 버킷 정책과 ACL — 공개와 비공개의 경계

○ Presigned URL — 임시 접근 링크의 원리

○ 이벤트 알림 — S3 → Lambda·SQS 연결

○ 정적 웹 호스팅과 CloudFront 결합

⚡️ RDS — 관리형 관계형 DB

○ RDS란 무엇인가 — 관리형 DB의 의미

○ 엔진 선택 — MySQL·PostgreSQL·Aurora

○ Multi-AZ와 장애 조치 — 가용성의 기제

○ Read Replica — 읽기 부하 분산

○ 백업과 PITR — 시점 복구의 범위

○ 파라미터 그룹과 옵션 그룹 — DB 설정의 추상

○ RDS 비용의 구조 — 스토리지·I/O·백업

⚡️ DynamoDB — 관리형 NoSQL

🔥 DynamoDB란 무엇인가 — 키-값 스토어의 관점

○ Partition Key와 Sort Key — 데이터 분산의 원리

○ GSI와 LSI — 다른 키로 조회하기

○ On-Demand vs Provisioned — 가격 모델

○ DynamoDB Streams — 변경 이벤트 스트림

○ 트랜잭션과 조건부 쓰기 — ACID의 한계

○ DynamoDB를 쓰지 말아야 할 때

⚡️ SQS — 메시지 큐

○ SQS란 무엇인가 — 큐의 추상