매일 아침 고객센터에서 “독감 예방접종은 언제 맞아야 하나요?” 같은 질문이 들어온다고 가정해 보자. 그런데 답변이 미국식 일정 관례를 따라가거나, 60세 환자에게 반말(반말, informal language)을 섞으면 사용자는 ‘정확한 정보’보다 ‘상대가 누구인지’부터 의심하게 된다. 이때 필요한 건 번역이 아니라, 에이전트가 실제 한국 사용자 맥락을 갖고 말하도록 만드는 장치다.

Nemotron-Personas-Korea가 제공하는 합성 페르소나 600만 개

NVIDIA가 공개한 Nemotron-Personas-Korea는 6 million(600만) 개의 fully synthetic personas를 제공한다. 이 페르소나는 KOSIS(한국통계정보서비스, Korean Statistical Information Service)에서 가져온 seed data와 함께, 한국의 공식 통계 및 다음 기관의 데이터에 grounded 되어 생성된다: Supreme Court of Korea(대법원), National Health Insurance Service(국민건강보험공단), Korea Rural Economic Institute(한국농촌경제연구원). NAVER Cloud(네이버 클라우드)가 seed data와 설계 단계의 도메인 전문성을 제공했다고 명시된다.

각 페르소나는 인구통계적으로 정확하지만 개인식별정보(PII, personally identifiable information)는 0이다. 또한 한국 개인정보보호법(PIPA, Personal Information Protection Act)을 염두에 두고 설계되었다. 한국은 합성 데이터 생성에 대한 공식 가이드를 공개한 몇 안 되는 국가로 소개되며, 민감한 데이터의 합성 버전으로 모델을 grounding할 때의 거버넌스를 세웠다는 맥락에서 이 데이터셋도 그 접근을 따른다고 설명한다.

예전엔 ‘정체성 없는 에이전트’가 기본이었고, 이제는 페르소나 레이어가 들어간다

예전의 많은 에이전트는 identity-blind(정체성 비고려)로 동작해, 지시를 수행하더라도 ‘누구에게 말하는지’가 프롬프트에 고정되지 않는다. 예로 든 시나리오는 한국 병원 예약을 미국 스케줄링 관례로 처리하거나, 60세 환자에게 반말을 섞는 경우다. 이런 문제는 단순히 어색함을 넘어, 사용자가 신뢰를 철회하는 실패로 이어진다고 본다.

이번 접근에서 달라진 점은 persona를 시스템 프롬프트에 로드하면 에이전트가 그 페르소나의 region(지역), occupation(직업), communication norms(대화 관습), domain expertise(도메인 전문성)를 ‘상속’한다는 구조다. 이 페르소나 레이어는 특정 에이전트 프레임워크에 종속되지 않는다고 설명되며, well-structured system prompt로 작동하면서 한국 인구 분포에 grounded 된다는 점을 강조한다.

또한 생성 파이프라인도 구체적으로 제시된다. Nemotron-Personas-Korea는 NVIDIA의 NeMo Data Designer(합성 데이터 생성용 오픈소스 시스템)를 사용해 만들었고, 통계 grounding에는 Probabilistic Graphical Model(확률 그래프 모델, Apache-2.0 라이선스)을 사용한다. 한국어 내러티브 생성에는 Gemma-4-31B(구글이 공개한 Gemma 계열의 31B 파라미터 모델)를 사용하며, 인구 데이터는 KOSIS(2020–2026 releases), 이름 분포는 대법원 데이터에서 가져온다고 적혀 있다.

결과: 페르소나 필터링→추론까지 20분 내, 한국형 에이전트가 바로 붙는다

이 튜토리얼은 synthetic persona를 deployed Korean agent로 바꾸는 과정을 “about 20 minutes”로 제시한다. 흐름은 데이터셋 로드와 탐색에서 시작해, record(레코드) 안의 structured demographic fields(구조화된 인구통계 필드)와 rich natural-language persona narratives(자연어 페르소나 서사)를 함께 활용하는 방식이다.

필터링은 occupation, region, age 같은 필드로 수행하며 조합도 가능하다고 한다. 예시로는 한국 공중보건(public health) 에이전트를 만든다고 명시되어 있다. 더 세밀하게는 region(예: 제주 기반 보건 종사자만), education level(학력), life stage(생애 단계)로 좁힐 수 있고, 데이터셋 규모가 충분해 highly specific slices(매우 구체적인 조각)를 찾을 수 있다고 적는다.

이때 structured fields—name, region, occupation, skills—이 에이전트의 identity로 들어가고, 그 위에 behavioral instructions와 task scope(업무 범위)를 얹어 “특정 역할과 지역의 한국 전문가처럼 추론하는” 에이전트가 된다고 설명한다. 추론(inference) 연결은 설정에 따라 3가지 옵션이 있다고만 안내되며, 도메인 전환은 persona filter와 task scope를 바꾸는 방식으로 동일하게 적용된다고 한다. 예로 금융(금융, geum-yung) 페르소나는 소매 은행 자문, 교육(교육, gyoyug) 페르소나는 튜터링 보조, 공무원(공무원, gongmuwon) 페르소나는 정부 보건 서비스 에이전트로 바뀐다고 제시된다.

또한 “독감 예방접종은 언제 맞아야 하나요?” 질문을 persona grounding 유무로 답변이 달라지는 예시가 포함된다고 적혀 있다. persona가 번역을 넘어, 사용자에게 신뢰받는 결과로 이어지도록 맥락을 제공한다는 주장이다.

실무 배포 경로도 함께 제시된다. persona-grounded prompt를 에이전트 프레임워크에 연결해 배포할 때 NemoClaw(항상 켜져 있는 에이전트를 위한 NVIDIA 오픈소스 레퍼런스 스택, NVIDIA OpenShell 샌드박스에서 동작하며 RTX PC부터 DGX Spark까지 지원)로 always-on 에이전트를 구성할 수 있고, NVIDIA NIM을 통해 production inference(운영 추론)로 서빙하거나 NVIDIA API를 직접 호출할 수 있다고 한다. Nemotron-Personas-Korea는 Nemotron-Personas Collection의 최신 추가로, USA, Japan, India, Singapore(AI Singapore), Brazil(WideLabs), France(Pleias)도 같은 파이프라인에서 다룰 수 있어 다국가 동시 서비스 시 페르소나를 섞을 수 있다고 안내한다.

마지막으로, 개발자들이 실제로 써볼 수 있는 오프라인 이벤트도 언급된다. NVIDIA Nemotron Developer Days가 서울에서 2026년 4월 21–22일 이틀간 열리며, sovereign AI와 open models 기술 세션, 그리고 Nemotron-Personas-Korea로 도메인별 한국 에이전트를 만드는 핸즈온 해커톤이 포함된다고 적혀 있다. 현장 참여 또는 라이브스트림으로 참여할 수 있으며, 빌드 결과는 향후 튜토리얼에 소개될 기회가 있다고 한다.

이 데이터셋의 핵심은 “한국 인구통계에 고정된 합성 페르소나를 시스템 프롬프트로 주입해, 에이전트의 말투·맥락·전문성을 동시에 맞추는 방식”으로 코드에 바로 연결된다는 점이다.