매일 아침 AI 모델을 파인튜닝하는 개발자는 같은 벽에 부딪힌다. 인터넷에 없는 전문 데이터가 필요하다는 사실이다. 사이버보안 위협 인텔리전스, 법률 추론, 의료 진단 같은 영역은 공개 데이터만으로 커버되지 않는다. 프라이버시 문제로 접근 자체가 불가능한 경우도 많다.
구글·EPFL 연구팀, 시뮬라(Simula) 발표…데이터 생성 4단계로 분해
구글과 EPFL(스위스 연방공과대학 로잔) 연구팀이 시뮬라(Simula)라는 합성 데이터 생성 프레임워크를 공개했다. 시뮬라는 기존 방식과 달리 대상 분포의 시드 데이터(seed data, 초기 샘플 데이터), 수작업 프롬프트, 진화 알고리즘에 의존하지 않는다. 데이터 생성을 메커니즘 설계 문제로 접근해 처음부터 원칙적으로 구성한다. 연구팀은 시뮬라가 데이터의 세 가지 축인 품질(Quality), 다양성(Diversity), 복잡성(Complexity)을 동시에 제어할 수 있다고 설명했다. 품질은 데이터 포인트가 특정 의미·구문 요건을 충족하는지, 다양성은 전역 커버리지(전체 개념 공간을 포괄하는지)와 지역 변이(각 개념에 대한 다양한 해석)를, 복잡성은 예시가 얼마나 혼란스럽거나 드물거나 정교한지를 측정한다.
시뮬라는 데이터 생성 과정을 네 단계로 나눈다. 첫 번째 단계는 계층적 분류체계(hierarchical taxonomies)를 사용해 전역 다양성을 확보한다. 예를 들어 '사이버보안 위협 인텔리전스 질문 데이터셋'이라는 설명이 주어지면, 멀티모달 모델(M3)이 해당 도메인의 주요 변동 요인(공격 유형, 위협 행위자, 취약점 클래스)을 식별한다. 각 요인은 너비 우선 탐색으로 계층적 분류체계 트리로 확장된다. 연구팀은 Best-of-N 제안 전략과 비평(critic) 개선 단계를 결합해 중요한 하위 범주 누락 위험을 줄였다. 모델이 N개의 후보 자식 노드를 제안한 뒤 완전성, 타당성, 구체성을 스스로 비평하도록 설계했다. 결과 분류체계는 구조화된 샘플링 발판 역할을 한다. 51만2000개 훈련 예제를 추출할 때 도메인의 긴 꼬리(long tail)를 실제로 커버하게 만든다.
두 번째 단계는 지역 다양성을 처리한다. 분류체계 노드의 조합(믹스)이 M3에 전달되어 '메타 프롬프트'를 생성한다. 예를 들어 {집고양이, 시, 여행 애호가} 조합은 '모험을 떠나는 집고양이에 관한 흥미로운 하이쿠를 작성하라'가 된다. 동일한 노드 집합에서 많은 메타 프롬프트가 생성될 때 모드 붕괴(mode collapse, 생성 결과가 단조로워지는 현상)를 방지하기 위해, 시뮬라는 여러 메타 프롬프트를 동시에 생성한 뒤 필요한 비율만 하위 샘플링한다.
세 번째 단계는 복잡화(complexification)다. 사용자가 설정 가능한 비율 c만큼의 메타 프롬프트가 복잡화 단계를 거친다. M3가 다른 요건을 유지하면서 메타 프롬프트와 출력의 복잡성을 높이도록 지시받는다. 이 설계는 복잡성 제어를 커버리지 제어와 분리한다. 폭을 희생하지 않고 난이도 상한을 올릴 수 있다.
네 번째 단계는 '이중 비평(dual-critic)' 접근법으로 품질을 향상시킨다. 모델에게 생성된 답변이 올바른지 한 번만 묻지 않는다. 시뮬라는 답변이 올바른지와 올바르지 않은지를 독립적으로 질의한다. 이 이중 검증 설계는 LLM의 아첨 편향(sycophancy bias, 그럴듯한 출력에 동의하려는 경향)을 완화한다. 객관식 문제나 수학 문제처럼 정답 개념이 명확한 과제에 특히 중요하다.
Gemini 2.5 Flash로 5개 도메인 테스트…복잡성 제어의 역설 확인
연구팀은 시뮬라를 Gemini 2.5 Flash(비추론 모드)를 교사 모델로, Gemma 3 4B를 학생 모델로 사용해 테스트했다. LoRA 파인튜닝을 구성별로 다른 시드로 10회 반복하고 평균 정확도를 95% 신뢰구간과 함께 보고했다. 생성된 데이터셋은 최대 51만2000개 데이터 포인트로, 다섯 도메인을 포함한다. CTI-MCQ(사이버보안 위협 인텔리전스 표준·위협·대응에 관한 객관식 데이터셋), CTI-RCM(CVE 설명에서 CWE 범주를 생성하는 개방형 생성 과제), LEXam(스위스·EU·국제법 시험, 영어·독일어), GSM8k(초등학교 수학), Global MMLU(수학·컴퓨터과학·물리학, 영어·한국어·네팔어)다.
모든 데이터셋과 데이터 규모에서 전체 시뮬라 시스템(전역 다양화+지역 다양화+복잡화+비평)이 단순 기준선보다 일관되게 높은 성능을 기록했다. 전역 다양화와 지역 다양화를 결합하는 것이 중요했다. 둘 중 하나만 사용하면 데이터셋과 규모에 따라 최적 이하의 결과가 나왔다.
복잡성 결과는 특히 시사점이 크다. GSM8k에서 고복잡성(High Complexity) 분할은 저복잡성(Low Complexity) 분할보다 6만4000개 데이터에서 정확도가 10% 높았다. 반면 LEXam에서는 교사 모델 정확도가 57%에 불과했고, 고복잡성 데이터가 오히려 성능을 낮췄다. 복잡한 데이터는 교사 모델이 신뢰할 수 있는 레이블을 생성할 수 있을 때만 유용하다는 것을 보여준다. LEXam의 비평 거부율(critic rejection rate)은 61%에 달했다. GSM8k의 거부율은 2%에 불과했다.
예전에는 LLM에 단순 프롬프트를 날려 데이터를 생성했다
예전에는 LLM에 '사이버보안 질문 100개 만들어줘' 같은 단순 프롬프트로 합성 데이터를 생성했다. 결과는 표면적으로 그럴듯했지만, 실제 도메인의 긴 꼬리를 반영하지 못했다. 다양성은 프롬프트 엔지니어링의 직관에 의존했고, 복잡성과 품질은 사후 필터링으로만 제어 가능했다. 시뮬라는 이 세 축을 생성 단계 자체에 내장했다. 전역 다양성은 분류체계가, 지역 다양성은 메타 프롬프트 샘플링이, 복잡성은 복잡화 비율 c가, 품질은 이중 비평이 각각 담당한다. 연구팀은 시뮬라의 코드를 GitHub에 공개했다.
개발자가 바로 체감하는 변화는 데이터 생성의 예측 가능성이다. 분류체계 트리를 시각화하면 어떤 개념이 누락되었는지 즉시 확인할 수 있다. 복잡화 비율 c를 0.3으로 설정하면 데이터의 30%만 난이도를 높인다. 이중 비평 덕분에 잘못 레이블링된 데이터가 파인튜닝 파이프라인에 유입될 위험이 줄어든다. 연구팀은 시뮬라가 교사 모델의 한계를 드러내는 도구로도 기능한다고 강조했다. LEXam의 61% 거부율은 Gemini 2.5 Flash가 해당 도메인에서 충분히 강력하지 않다는 신호다.
시뮬라는 합성 데이터 생성의 지형을 '프롬프트'에서 '설계'로 옮긴다.




