연구 현장에서 고품질 학습 데이터를 확보하는 일은 모델의 성능을 결정짓는 가장 큰 병목 구간이다. 최근 Meta AI의 RAM(Reasoning, Alignment, and Memory, 추론·정렬·기억 연구팀)은 이 문제를 해결하기 위해 AI 에이전트가 직접 데이터 과학자 역할을 수행하며 학습 데이터를 생성하고 정제하는 프레임워크인 Autodata를 발표했다. 사람이 매번 데이터를 검수하는 비용을 들이지 않고도, 모델이 스스로 복잡한 과학적 추론 문제를 풀 수 있는 고품질 데이터를 구축하는 것이 핵심이다.
AI 에이전트가 주도하는 데이터 생성 파이프라인
기존의 데이터 생성 방식은 주로 Self-Instruct(모델이 스스로 질문과 답변을 생성하는 방식)나 CoT(Chain-of-Thought, 단계별 추론) 기법에 의존해 왔다. 하지만 이러한 방식은 대부분 단일 패스로 데이터를 생성하고 끝나는 정적인 구조를 가진다. Autodata는 이를 폐쇄형 루프(Closed-loop) 파이프라인으로 전환했다. 메인 오케스트레이터 LLM(거대언어모델)이 4개의 특화된 하위 에이전트를 조율하는 구조다.
데이터 생성 과정에서 에이전트는 다음 네 가지 조건을 모두 충족해야만 데이터를 최종 데이터셋으로 승인한다. 첫째, 질문이 원본 문서의 내용을 정확히 반영해야 한다. 둘째, 정답이 명확해야 한다. 셋째, 약한 모델(Weak solver)은 틀리고 강한 모델(Strong solver)은 맞힐 수 있는 난이도여야 한다. 넷째, 답변의 논리적 근거가 타당해야 한다. 만약 이 조건 중 하나라도 어긋나면 메인 에이전트는 즉시 피드백을 보내 다른 추론 방식으로 다시 시도하게 한다. 이 루프는 논문 한 편당 평균 3~5회 반복된다.
기존 CoT Self-Instruct와의 성능 격차
데이터 품질의 차이는 벤치마크 결과에서 극명하게 드러난다. 기존 CoT Self-Instruct 방식에서는 약한 모델과 강한 모델의 성능 차이가 1.9%포인트에 불과했다. 이는 생성된 데이터가 모델의 역량을 변별하기에 충분히 어렵지 않았음을 의미한다. 반면, Autodata를 적용한 Agentic Self-Instruct 방식에서는 약한 모델의 점수는 43.7%로 낮아지고 강한 모델은 77.8%까지 올라가며 그 격차가 34%포인트로 벌어졌다. 이는 모델의 강점을 확실히 보상하는 데이터가 생성되고 있음을 입증한다.
연구팀은 S2ORC(Semantic Scholar Open Research Corpus, 학술 논문 데이터셋)에서 추출한 1만여 편의 컴퓨터 과학 논문을 활용해 2,117개의 QA 쌍을 생성했다. 이를 통해 학습된 Qwen-3.5-4B(알리바바가 개발한 40억 파라미터 규모의 모델)는 GRPO(Group Relative Policy Optimization, 그룹 상대 정책 최적화 기법)를 적용했을 때, 기존 방식보다 더 높은 성능을 보였다.
메타 최적화를 통한 에이전트 성능 향상
Autodata는 데이터 생성 루프를 넘어 에이전트 자체를 최적화하는 메타 최적화(Meta-optimization) 단계까지 포함한다. 에이전트의 코드 스캐폴딩(구조적 뼈대), 프롬프트, 평가 로직을 진화 기반 최적화 프레임워크로 개선하는 방식이다. Kimi-K2.6(문맥 이해 및 평가를 수행하는 모델)을 분석가로 활용해 실패 패턴을 진단하고, 코드 편집 에이전트가 에이전트의 동작 방식을 수정하도록 했다.
이 과정을 통해 초기 12.8%였던 검증 통과율은 42.4%까지 상승했다. 특히 에이전트가 스스로 발견한 개선점은 다음과 같다. 첫째, 질문 생성 시 더 구체적인 제약 조건을 추가했다. 둘째, 답변 생성 시 단계별 추론을 강제했다. 셋째, 모호한 질문을 필터링하는 로직을 강화했다. 넷째, 평가 루브릭(채점 기준)을 더욱 정교하게 다듬었다. 이러한 자동화된 개선은 사람이 수동으로 프롬프트를 수정하지 않아도 데이터 과학자 에이전트가 스스로 진화할 수 있음을 시사한다.
데이터 생성의 병목을 해결하는 열쇠는 이제 컴퓨팅 자원을 얼마나 효율적으로 데이터 품질 향상에 투입하느냐에 달려 있다.




