170만 건의 에이전트 행동 궤적, AgentTrove로 SFT 데이터셋 구축하기

1인 개발자 R씨는 에이전트 모델을 미세 조정(SFT)하기 위해 고품질의 학습 데이터를 찾고 있었다. 수백 기가바이트에 달하는 원시 로그를 모두 내려받아 정제하는 작업은 메모리 부족과 시간 낭비를 초래한다. 특히 에이전트가 도구를 사용하는 복잡한 궤적 속에서 정답만 골라내는 과정은 수동 작업에 가깝다.

이제 170만 건의 에이전트 상호작용 궤적을 모은 AgentTrove(에이전트 행동 기록 저장소)를 통해 전체 데이터를 받지 않고도 필요한 부분만 스트리밍으로 읽어올 수 있다. 도구 호출 명령어를 자동으로 추출하고 성공한 사례만 필터링해 학습용 데이터셋으로 변환하는 파이프라인이 가능하다. 이런 데이터 수집과 정제 과정에서 병목을 겪는 개발자가 늘고 있다.

170만 건의 궤적을 담은 AgentTrove의 구성

기존 데이터셋은 수십 기가바이트에 달하는 전체 파일을 로컬 스토리지에 모두 내려받은 뒤에야 내용을 확인할 수 있었지만, AgentTrove(에이전트 트로브, 에이전트 상호작용 데이터 저장소)는 스트리밍 방식으로 접근한다. 전체 데이터를 다운로드하지 않고도 클라우드 상에서 개별 데이터 행을 즉시 검사하며 대화 스키마를 파악한다. 이 저장소는 총 170만 건의 에이전트 상호작용 궤적(Agentic Traces)을 포함하며, 이는 에이전트가 도구를 사용하고 문제를 해결하는 전 과정을 기록한 데이터다. 개발자는 스트리밍 모드를 통해 필요한 부분만 샘플링하여 데이터 구조를 분석하고, 서로 다른 스키마를 가진 데이터들을 일관된 역할-내용(role-content) 형식으로 정규화한다. 대규모 데이터를 다룰 때 발생하는 물리적인 스토리지 부담과 네트워크 대기 시간을 제거해 데이터 탐색 및 전처리 속도를 높인다.

데이터 정제 단계에서는 에이전트의 작업 성공 여부를 가르는 정밀한 필터링 기능을 활용한다. resolved, passed, correct, positively rewarded와 같이 긍정적인 피드백이나 정답 여부가 기록된 궤적만 선별해 추출한다. 이렇게 걸러낸 고품질 데이터는 ShareGPT 스타일의 JSONL 형식으로 내보낸다. ShareGPT 형식은 대화의 흐름을 보존하면서 모델이 학습하기 좋은 구조로 설계되어 있어, 별도의 복잡한 변환 과정 없이 바로 지도 미세 조정 파이프라인에 투입한다. 필터링과 내보내기 과정을 통해 학습에 방해가 되는 실패 사례나 노이즈 데이터를 사전에 차단하고, 정답에 도달한 최적의 경로만을 학습 데이터로 확보한다.

SFT(Supervised Fine-Tuning, 지도 미세 조정) 데이터셋을 구축할 때 가장 많은 비용과 시간이 투입되는 지점은 고품질의 상호작용 궤적을 선별하는 수작업이다. AgentTrove는 170만 건의 방대한 표본에서 성공 사례만 빠르게 추출하는 자동화된 분석 워크플로우를 제공한다. 개발자는 특정 키워드나 데이터 소스별로 궤적을 검색해 자신이 해결하려는 도메인에 특화된 데이터셋을 빠르게 구성한다. 예를 들어 특정 도구 사용 빈도가 높은 궤적만 추려내어 해당 도구의 숙련도를 높이는 학습 데이터를 만든다. 이 과정은 사람이 일일이 로그를 확인하며 데이터를 수집하고 라벨링하던 기존 방식의 인건비와 시간 비용을 획기적으로 낮춘다. 결과적으로 데이터 준비 단계에서 발생하는 병목 현상을 제거해 모델의 학습 및 배포 주기를 단축한다.

스키마 탐지부터 명령어 추출까지의 동작 원리

데이터셋마다 컬럼 이름이 다르면 전처리 코드를 매번 새로 짜야 하는 번거로움이 있다. AgentTrove는 여러 출처의 에이전트 궤적을 수집했기에 데이터 구조의 파편화가 매우 심하다. 이를 해결하기 위해 대화 데이터가 포함된 컬럼을 자동으로 찾아내는 방어적 스키마 탐지 함수를 구현한다. 이 함수는 컬럼명에 포함된 특정 키워드를 검색하거나 데이터 타입을 검사해 실제 대화 궤적이 담긴 위치를 식별하며, 예상치 못한 컬럼명으로 인해 파이프라인이 멈추는 상황을 방지한다. 식별된 데이터는 역할과 내용으로 구성된 '역할-내용(role-content)' 형식으로 통일하는 턴 정규화 과정을 거친다. 시스템, 사용자, 어시스턴트 등 서로 다른 역할 정의를 하나의 표준 포맷으로 강제해 데이터 소스가 바뀌어도 파이프라인을 수정 없이 그대로 사용한다.

LLM이 출력하는 JSON 응답 내에는 실행 가능한 쉘 명령어가 포함되어 있지만, 이를 그대로 코드에 넣을 수는 없다. 마크다운 코드 펜스가 섞여 있거나 JSON 객체 내부에 명령어가 중첩되어 들어가는 경우가 많기 때문이다. 명령어 추출 유틸리티는 먼저 응답 텍스트에서 코드 펜스를 제거하고 전체 내용을 JSON으로 로드한다. 그 다음 JSON 내부의 모든 필드를 재귀적으로 탐색하며 쉘 명령어와 관련된 특정 필드명을 추적해 값을 분리한다. 중첩된 딕셔너리나 리스트 구조 속에서도 명령어 키를 끝까지 찾아내어 텍스트에서 실행 코드를 완전히 분리한다. 텍스트 뭉치에서 실제 도구 호출 동작을 정밀하게 추출해 내어 에이전트의 행동 빈도를 정량적으로 측정한다.

수천 건의 대화 궤적을 분석할 때 가장 큰 병목은 가독성이다. 단순 JSON 로그는 흐름을 파악하기 어렵기에 메타데이터와 전체 궤적을 읽기 쉽게 출력하는 렌더링 함수를 사용한다. 이 함수는 데이터 소스, 사용 모델, 결과 상태와 같은 메타데이터를 상단에 먼저 출력한 뒤, 각 턴을 사용자, 어시스턴트, 시스템, 도구라는 네 가지 역할로 라벨링하여 나열한다. 메시지 길이가 지나치게 길어 화면을 가리는 경우에는 특정 길이에서 내용을 절삭해 시각적 피로도를 낮춘다. 특히 어시스턴트의 응답 바로 아래에 앞서 추출한 쉘 명령어를 별도로 배치해 실행 흐름을 한눈에 보여준다. 개발자는 이를 통해 에이전트가 어떤 사고 과정을 거쳐 특정 도구를 호출했는지 궤적 전체를 직관적으로 추적한다.

전체 다운로드 방식과 스트리밍 분석의 차이

대규모 데이터셋을 다룰 때 가장 먼저 마주하는 벽은 하드디스크 용량과 메모리 부족이다. 기존의 분석 방식은 전체 데이터셋을 로컬 저장소로 내려받은 뒤 메모리에 올리는 구조를 취한다. 데이터 규모가 커질수록 수십 기가바이트의 저장 공간을 확보하는 데 많은 시간이 소요되며 pandas(데이터 분석 라이브러리)로 로드하는 과정에서 메모리 부하가 발생해 커널이 강제 종료되는 일이 잦다. AgentTrove(에이전트 상호작용 궤적 데이터셋)는 이를 스트리밍 액세스 방식으로 해결한다. 전체 데이터를 로컬에 저장하지 않고 필요한 샘플만 실시간으로 추출해 pandas DataFrame으로 변환하므로 로컬 저장 공간의 제약을 완전히 없앤다.

스트리밍 방식은 데이터셋의 스키마를 먼저 확인하고 필요한 부분만 가져오는 효율적인 흐름을 만든다. 분석가는 전체 데이터를 로드하기 전에 첫 번째 행을 검사해 사용 가능한 컬럼을 확인하고 대화 구조를 파악한다. 이후 샘플링된 데이터를 바탕으로 대화의 총 턴 수, 도구 사용 횟수, 총 글자 수, 파싱된 명령어 수와 같은 구체적인 통계 지표를 산출한다. 특히 어시스턴트의 응답에서 쉘 명령어를 파싱해 도구 사용 빈도를 측정하는 과정은 에이전트의 행동 복잡도를 정량적으로 평가하는 기준이 된다. 각 궤적의 특성을 수치화하여 가벼운 특징량으로 저장하면 데이터 전체를 훑지 않고도 데이터셋의 전반적인 경향성을 빠르게 파악한다.

추출한 통계 데이터는 시각화 단계에서 데이터셋의 품질을 검증하는 근거가 된다. 태스크 소스와 티처 모델, 모델 제공자별 분포를 확인해 데이터셋의 구성 비율을 파악한다. 어떤 모델이 더 많은 도구를 사용했는지, 특정 소스의 데이터가 전체에서 어느 정도 비중을 차지하는지 즉각적으로 확인한다. 이는 데이터셋 전체를 다운로드해 전처리를 수행하던 기존의 무거운 워크플로우를 가벼운 샘플링 기반의 탐색적 분석으로 대체한다. 분석가는 이제 데이터 전체를 로컬에 소유하지 않고도 필요한 정보만 골라내어 SFT(지도 미세 조정)를 위한 최적의 데이터 부분집합을 구성하고 학습 효율을 높인다.

에이전트 SFT 파이프라인에 미치는 실무적 영향

개발자가 SFT(Supervised Fine-Tuning, 지도 미세 조정) 데이터를 준비할 때 가장 많은 시간을 쓰는 작업은 실패한 궤적을 걷어내는 일이다. AgentTrove는 resolved, passed, correct 또는 긍정적인 보상을 받은 데이터만 남기는 성공 필터를 제공한다. 이 필터는 정답이 확인된 성공 궤적만 추출해 데이터셋의 노이즈를 즉각적으로 제거한다. 모델이 도구를 잘못 호출하거나 엉뚱한 경로로 진입한 사례를 학습 데이터에서 배제함으로써 도구 사용 정확도를 빠르게 높인다. 무작위 샘플링 대신 검증된 성공 사례만 학습시키는 방식은 학습 효율을 극대화하며 모델의 환각 현상을 억제한다. 특히 전체 데이터셋을 다운로드하지 않고 스트리밍 방식으로 필요한 부분만 필터링하는 구조는 인프라 비용을 줄이고 데이터 준비 속도를 높인다. 정제된 데이터셋은 모델이 정답에 이르는 최단 경로를 학습하게 만들어 추론 단계의 토큰 소모량까지 줄인다.

데이터셋에 포함된 티처 모델(Teacher Model, 학습 가이드 모델)과 모델 제공자의 분포를 분석하는 단계가 뒤따른다. 어떤 모델이 특정 태스크에서 더 효율적인 도구 호출 패턴을 보였는지 수치로 확인하고 이를 타겟 모델의 성능 벤치마크로 설정한다. 티처 모델의 행동 양식을 분석해 타겟 모델이 따라야 할 최적의 경로를 정의하는 기준점이 된다. 이는 단순히 데이터를 늘리는 것이 아니라 고성능 모델의 사고 과정을 복제하는 전략적 접근이다. 개발자는 이를 통해 모델이 도달해야 할 구체적인 행동 목표를 설정하고 성능 격차를 줄이는 학습 전략을 짠다. 티처 모델의 성공 패턴을 정량적으로 분석하면 타겟 모델이 어느 지점에서 실수를 반복하는지 명확히 짚어낼 수 있으며 이는 곧 학습 데이터의 가중치 조절로 이어진다.

특정 에이전트 태스크에 특화된 데이터셋을 구성하기 위해 키워드와 소스 기반 검색 유틸리티를 사용한다. 필요한 도구 이름이나 특정 작업 소스를 검색해 관련 궤적만 빠르게 모으고 이를 ShareGPT 스타일의 JSONL 형식으로 내보낸다. 분석에서 필터링, 최종 내보내기로 이어지는 이 과정은 한 번 구축하면 다른 태스크에도 그대로 적용하는 재사용 가능한 파이프라인이 된다. 데이터 준비 단계의 수작업을 자동화된 워크플로우로 대체해 데이터셋 구축 시간을 단축한다. 특히 쉘 명령어나 API 호출과 같은 정교한 도구 사용이 필요한 태스크에서 이 파이프라인은 데이터 수집 비용을 획기적으로 낮춘다. 결과적으로 엔지니어는 데이터 정제라는 단순 반복 작업에서 벗어나 모델의 추론 성능 최적화와 에이전트 워크플로우 설계에 더 많은 자원을 투입한다.

한국 AI 실무자가 AgentTrove를 활용하는 방법

글로벌 벤치마크와 국내 실무 적용 사이의 시차는 이제 몇 주 단위로 줄었다. 한국어 에이전트를 구축할 때 가장 큰 병목은 정답 궤적이 포함된 고품질 데이터셋의 부족이다. 실무자는 AgentTrove(에이전트 상호작용 궤적 데이터셋)에서 성공적으로 해결된 영어 궤적을 추출해 한국어로 로컬라이징한다. 전체 데이터셋을 로컬에 내려받지 않고 스트리밍 방식으로 필요한 행만 검사해 대화 스키마를 파악하고, 이를 한국어 환경에 맞게 번역한다. 단순 번역을 넘어 한국의 비즈니스 문법과 예절을 반영한 대화 턴 정규화 과정을 거친 뒤, 정제된 데이터를 ShareGPT(대화형 데이터 포맷) 스타일의 JSONL 파일로 변환해 SFT(지도 미세 조정) 데이터셋으로 확장한다. 영어권의 성공적인 추론 경로를 한국어 환경에 이식함으로써 데이터 수집 비용과 시간을 획기적으로 낮춘다.

에이전트가 도구를 호출하는 방식은 단순한 API 연결 이상의 설계 능력을 요구한다. AgentTrove 내의 궤적 데이터에는 셸 명령어 실행이나 JSON 형태의 도구 호출 패턴이 구체적으로 기록되어 있다. 실무자는 명령어 추출 유틸리티를 통해 에이전트가 어떤 시점에 실행 가능한 명령을 내리는지 분석하고, 이를 데이터프레임으로 변환해 턴별 통계를 산출한다. 작업 소스와 티처 모델, 턴 수 분포 사이의 관계를 시각화해 한국어 에이전트가 지향해야 할 최적의 턴 길이를 설정한다. 이 분석 결과는 국내 기업 환경에 맞는 ERP(전사적 자원 관리)나 그룹웨어 API 호출 워크플로우 설계에 직접 반영한다. 특정 작업에서 에이전트가 어떤 순서로 도구를 사용하고, 예상치 못한 결과가 나왔을 때 어떻게 경로를 수정하는지 분석해 프롬프트 구조에 녹여낸다. 이는 에이전트가 단순한 텍스트 응답을 넘어 실제 기업의 업무 프로세스를 정확하게 수행하는 실행력을 갖추게 만든다.

자체 구축한 에이전트의 성능을 측정할 객관적 기준점은 여전히 희소하다. 실무자는 AgentTrove의 오픈소스 궤적 데이터를 기준점(Baseline)으로 설정해 자체 모델의 추론 경로와 비교 평가한다. 특히 resolved, passed, correct 등으로 표시된 성공 필터를 적용해 검증된 궤적만을 추출하고, 키워드나 소스 기반 검색 유틸리티로 특정 작업군을 분류한다. 티처 모델(Teacher Model, 정답 궤적을 생성한 고성능 모델)이 밟은 단계와 자체 에이전트가 생성한 단계의 일치도를 측정해 추론의 정확성을 판별한다. 성공적인 궤적의 평균 턴 수와 도구 사용 빈도를 지표로 삼아 모델의 효율성을 정량적으로 검증한다. 이 과정은 에이전트의 행동 최적화 방향을 결정하고 모델 업데이트의 성패를 가르는 명확한 근거가 된다.

170만 건의 행동 궤적 데이터는 더 이상 단순한 기록이 아니라 SFT를 위한 정교한 설계도가 된다. 수작업으로 구축하던 데이터셋의 한계를 넘어 AgentTrove가 제시하는 자동화된 궤적 수집 체계는 모델이 정답에 도달하는 추론 경로를 직접적으로 교정하고 최적화한다. 이는 에이전트 개발의 중심축이 모델 아키텍처의 개선에서 고품질 궤적 데이터의 확보와 정제로 빠르게 이동하고 있음을 보여준다. 결국 에이전트의 실무적 성능은 파라미터의 크기가 아니라 학습에 투입되는 궤적 데이터의 밀도와 정밀함이 결정한다.