🔥 NVIDIA Nemotron-Personas-Korea: 가짜 한국인 700만 명, sovereign AI의 출발선

#NVIDIA#Nemotron#sovereign-AI#synthetic-data#한국어-LLM

992자

14분

강의 목차

한국어 모델이 아니라 한국이라는 맥락
통계청 표를 사람으로 풀어내는 파이프라인
학습에 섞었을 때 실제로 뭐가 달라지나
데이터셋이 만든 새 정의
한계는 솔직히 적지 않다
그래서 결정은 데이터에서 먼저 일어난다
참고 자료

통계청 분포가 700만 명의 합성 한국인 페르소나로 풀려나오는 컨셉 일러스트

허깅페이스 데이터셋 페이지에서 "김상제 씨, 42세, 안양시 만안구 가죽 공장 사무원"이라는 한 줄을 보고 잠깐 손이 멈췄다. 그 옆에는 "주말이면 거실 소파에 깊숙이 파묻혀 롯데 자이언츠의 경기를 시청한다"는 문장이 붙어 있었다. 가공의 한국인 한 명이 통계청 표보다 훨씬 구체적인 모습으로, 진짜 그 동네에 사는 사람인 것처럼 박혀 있었다.

NVIDIA가 Nemotron-Personas-Korea라는 데이터셋을 공개한 게 2026년 4월 20일이다. 100만 레코드, 한 사람당 7가지 페르소나 묘사가 붙으니 총 700만 페르소나, 1.7B 토큰, 약 2 GB 한국어 합성 데이터셋이다. CC BY 4.0이라 상업·비상업 모두 자유롭게 가져다 쓸 수 있다.

처음에는 NVIDIA가 또 데이터셋을 풀었나 싶었다. 그런데 안을 들여다보다가 생각이 좀 달라졌다. 이건 sovereign AI가 무엇인지에 대한 한 가지 구체적인 답안 같아 보였다.

한국어 모델이 아니라 한국이라는 맥락

LLM 학습용 페르소나 데이터셋은 원래 미국 위주였다. NVIDIA의 Nemotron-Personas 컬렉션이 2025년 10월 말 미국판으로 처음 시작했고, 이후 일본·인도·싱가포르·브라질·프랑스를 거쳐 한국이 일곱 번째다. 컬렉션 이름이 Personas-Multilingual이 아니라 Personas-Korea, Personas-Japan인 게 핵심이다. 한국어를 입혔다는 게 아니라, 한국이라는 지역의 인구 분포 자체를 데이터에 박았다는 뜻이다.

차이가 어디서 드러나나. NVIDIA 블로그가 든 예가 깔끔하다. 한국 보건소 예약을 미국식 스케줄링 관행으로 안내하는 에이전트, 60대 환자에게 반말로 답하는 에이전트는 어색한 게 아니라 그냥 작동하지 않는 거다. 영어 데이터로 학습된 모델은 한국어 존댓말 체계도, 보건소와 국민건강보험공단을 거치는 예방접종 사업의 행정 흐름도 잘 모른다. 토큰 수를 늘려서 해결될 문제가 아니라, 학습 데이터 안에 한국에서 살아가는 사람들이 들어 있어야 풀린다는 게 NVIDIA의 진단이다.

Nemotron-Personas-Korea 접근법 다이어그램
출처: Nemotron-Personas-Korea 데이터셋 카드

통계청 표를 사람으로 풀어내는 파이프라인

데이터셋 한 행을 열어보면 이런 게 들어 있다. 이름, 성별, 나이, 혼인 상태, 군 복무, 가구 유형, 주거 형태, 학력, 전공, 직업, 시도, 시군구. 거기에 직업·스포츠·예술·여행·식문화·가족 페르소나 6개와 한 줄짜리 요약 페르소나 1개. 26개 필드 중 25개가 본문이고 1개는 UUID다.

Nemotron-Personas-Korea 26필드 스키마
출처: Nemotron-Personas-Korea 데이터셋 카드

이 표를 채우는 건 사람이 아니라 NeMo Data Designer라는 NVIDIA의 합성 데이터 생성 파이프라인이다. 핵심 두 부품이 있다. 하나는 확률적 그래프 모델(PGM, Apache-2.0)이고, 또 하나는 한국어 서사를 채우는 Gemma-4-31B-it다. PGM이 통계 분포를 잡아 어느 나이·어느 지역·어느 학력의 한국인이 얼마나 있어야 하는지를 결정하면, Gemma-4-31B-it가 그 분포 안의 한 명을 한국어 문장으로 채운다.

5개 통계 출처가 PGM과 Gemma-4-31B-it를 거쳐 700만 페르소나로 변환되는 데이터 파이프라인

분포의 출처가 또 흥미롭다. 인구·직업·여가는 통계청 KOSIS(2020~2026), 이름 분포는 대법원, 건강 데이터는 국민건강보험공단의 2024년 건강검진 정보(KOGL 0유형), 식습관은 한국농촌경제연구원의 2024 식품소비행태조사(KOGL 4유형), 그리고 NAVER Cloud가 시드 데이터와 도메인 지식을 같이 댔다. 데이터셋 안에서 김 21.5%, 이 14.7%, 박 8.5%로 성씨가 분포하는 것도, 가장 흔한 이름이 김영숙이고 동명이인이 79%에 이르는 것도, 50~64세 베이비부머가 가장 두꺼운 항아리형 인구 분포도, 다 통계청 표를 그대로 베껴 박은 결과다.

Nemotron-Personas-Korea 연령대 분포 — 50~64세 베이비부머가 가장 두꺼운 항아리형 구조
출처: Nemotron-Personas-Korea 데이터셋 카드

학습에 섞었을 때 실제로 뭐가 달라지나

같은 컬렉션의 일본판 데이터셋에 앞서 나간 사례 하나가 정량적인 답을 줬다. NVIDIA가 NTT DATA와 함께 일본 법률 Q&A 모델을 미세조정한 케이스 스터디에서 Nemotron-Personas-Japan을 학습 데이터에 섞었더니, 정확도가 15.3%에서 79.3%로 올라갔다고 한다. 60+ 포인트의 점프를 민감한 실제 데이터를 한 줄도 노출하지 않고 만들어 냈다는 게 NVIDIA 측 발표다.

한국에서도 비슷한 효과가 나올지는 아직 케이스 스터디가 안 나와 있다. 다만 한국은 마침 개인정보 보호법이 강하고, 개인정보보호위원회가 가명·익명·합성 데이터 생성 가이드를 따로 발간한 환경이다. PII가 한 줄도 들어 있지 않은 합성 페르소나 데이터셋은 이런 환경에서 특히 가치가 크다. 진짜 한국인의 데이터를 못 쓰는 자리에서 가짜 한국인의 분포를 그대로 쓸 수 있게 해 주는 것, 이게 sovereign AI라는 단어가 한국 맥락에서 실제로 의미하는 일이다.

데이터셋이 만든 새 정의

원래는 sovereign AI를 어느 GPU에서 누가 어느 크기 모델을 훈련하느냐의 문제로 보고 있었다. NAVER Cloud가 자체 비전 인코더를 갖췄다는 뉴스나, 정부가 K-Cloud R&D에 4천억 원을 박았다는 발표 같은 것들이 그 시각을 강화했다.

그런데 Nemotron-Personas-Korea를 보고 나서 그 정의가 한 칸 옆으로 옮겨진 느낌이다. 모델 그 자체보다는 어느 통계청 데이터까지 학습용 데이터셋에 박혀 있느냐가 더 본질적인 것 아닌가. 100만 명의 가공 한국인이 통계청·대법원·건강보험공단 분포를 큰 틀에서 따라간다. 그 데이터로 학습된 모델은 한국 인구 구조의 형태를 자연스럽게 입은 모델이 된다. 모델 크기가 같아도 그 안에 한국이 들어 있느냐가 다른 문제라는 걸, 이 데이터셋은 한 장으로 보여 준다.

한계는 솔직히 적지 않다

다만 이걸 완성으로 보면 곤란하다. 데이터셋 카드 자체가 한계를 꽤 정직하게 적어 두었다. PGM이 인구 변수들을 독립적으로 가정하고 합성한다는 점이 가장 크다. 예컨대 성별과 전공의 상호작용 효과는 모델링에 들어가지 않았다. 공개 데이터의 시차와 PGM 자체의 실용 한계 때문이다.

또 gender 변수는 빠졌다. 한국 공공 데이터에 생물학적 sex와 구분되는 gender 통계가 충분히 잡혀 있지 않아서다. 19세 미만 페르소나도 없고, 금융·의료 같은 엔터프라이즈 도메인 페르소나도 들어 있지 않다. 이름이나 페르소나 묘사가 실재 인물과 비슷해 보이는 경우는 완전한 우연이라고 못 박혀 있다.

그리고 합성 데이터가 모델 붕괴(model collapse)를 예방해 주는 건 아니라는 것도 잊지 말아야 한다. 합성 데이터로만 반복 학습하면 분포의 꼬리가 깎여 나간다는 게 24년 Nature 논문의 결론이고, 26년에도 유효하다. 합성 데이터는 진짜 데이터를 대체하는 게 아니라 보태는 것이라는 시각으로 봐야 안전하다.

그래서 결정은 데이터에서 먼저 일어난다

원래 sovereign AI를 모델 크기와 컴퓨트의 문제로 보고 있었다. 이 데이터셋을 들여다보고 나서 데이터 출처의 문제로 다시 봐진다. 한국형 LLM이라는 단어를 들었을 때, 머릿속에 70B냐 405B냐가 먼저 떠오를 게 아니라 어느 통계청 표 몇 년치가 학습 데이터에 들어갔나가 먼저 떠올라야 하는 시기 같다. NVIDIA Nemotron Developer Days가 4월 21~22일 서울에서 열린 게 우연은 아닐 것이다.

참고 자료

Nemotron-Personas-Korea 데이터셋 카드 (Hugging Face) — 글의 1차 출처. NVIDIA가 공개한 한국형 합성 페르소나 데이터셋의 공식 페이지와 통계 분포 차트.
How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas — NVIDIA의 한국형 AI 에이전트 그라운딩 튜토리얼 블로그. 보건소 사례와 sovereign AI 의의가 정리되어 있다.
Nemotron-Personas-Japan × NTT DATA 케이스 스터디 — 일본 법률 Q&A 정확도 15.3% → 79.3%로 올린 NVIDIA × NTT DATA 미세조정 사례.
NVIDIA-NeMo/DataDesigner (GitHub) — Nemotron-Personas-Korea 생성에 쓰인 합성 데이터 컴파운드 AI 시스템 NeMo Data Designer 오픈소스 저장소.
국민건강보험공단_건강검진정보_20241231 (data.go.kr) — Nemotron-Personas-Korea의 건강 시드 데이터로 인용된 NHIS 2024 건강검진 정보. KOGL 0유형(이용허락범위 제한 없음).
개인정보위 합성데이터 생성 참조모델 공개 (PIPC, 2024-05-30) — 한국 개인정보보호위원회가 발간한 합성 데이터 생성 가이드 보도자료.
AI models collapse when trained on recursively generated data (Nature, 2024) — 합성 데이터 반복 학습 시 분포 꼬리가 깎이는 모델 붕괴 현상을 다룬 Shumailov 외 Nature 논문.