데이터 사이언티스트를 가로막는 피처 엔지니어링의 병목

기업의 데이터 사이언티스트는 정형 데이터 기반의 예측 모델을 구축하기 위해 수주에서 수개월 동안 피처 엔지니어링(Feature Engineering) 작업에 매달린다. 분석가는 원시 데이터에서 유의미한 신호를 찾기 위해 변수를 생성하고 가공하며 가설을 검증하는 반복적인 전처리 과정을 수행한다. 이 과정에서 소모되는 리소스의 대부분은 알고리즘의 선택이 아니라 데이터를 모델이 이해할 수 있는 형태로 변환하는 수동 작업에 집중된다.

기업이 보유한 핵심 데이터는 대부분 스프레드시트, 전사적 자원 관리(ERP) 시스템, 고객 관계 관리(CRM) 시스템, 관계형 데이터베이스와 같은 표 형태로 저장되어 있다. 재무 제표부터 환자 기록, 공급망 로그에 이르기까지 기업의 중대한 비즈니스 결정은 이러한 구조화된 데이터의 예측 결과에 의존한다. 하지만 기존의 머신러닝 도구들은 도메인 지식을 활용해 원시 데이터에서 특징을 직접 추출해야 하는 구조적 한계로 인해 프로덕션 전환까지 상당한 시간을 소모한다.

데이터 사이언티스트는 모델 학습을 위해 데이터를 다듬는 단순 반복 노동에 시간을 투입하며, 이는 실제 비즈니스 가치를 창출하는 분석 단계로 진입하는 시간을 늦추는 병목 구간이 된다. 결과적으로 정형 데이터의 잠재력을 활용하려는 기업은 모델의 성능을 최적화하기 전, 데이터를 깎아내는 전처리 단계에서 이미 수개월의 시간을 소모하게 된다.

수십억 개의 과제로 사전 학습된 LTM NEXUS의 등장

Fundamental(펀더멘털)은 정형 데이터 예측을 위해 특화 설계된 파운데이션 모델인 NEXUS(넥서스)를 개발했다. NEXUS는 텍스트 처리에 최적화된 대규모 언어 모델(LLM)과 달리, 구조화된 데이터 분석을 위해 설계된 대규모 정형 모델(Large Tabular Model, LTM) 아키텍처를 채택했다. 이 모델은 수십억 개의 실제 세계 예측 과제를 통해 사전 학습을 마쳤으며, 이를 통해 원시 데이터 내에서 유의미한 신호를 스스로 찾아내는 능력을 갖췄다.

AWS는 Fundamental과의 협력을 통해 아마존 세이지메이커 점프스타트(Amazon SageMaker JumpStart)에서 NEXUS 모델의 배포를 지원한다. 사용자는 세이지메이커 점프스타트에서 'Fundamental NEXUS'를 검색해 모델을 선택하고 즉시 배포할 수 있는 환경을 제공받는다. 이를 통해 기업은 데이터 사이언티스트가 수동으로 피처를 설계하고 모델을 처음부터 학습시켜야 했던 기존의 복잡한 과정을 생략한다.

NEXUS는 원시 정형 데이터를 입력받아 결정론적(Deterministic) 예측값을 생성하는 구조를 가진다. 모델 내부의 사전 학습된 가중치가 데이터 간의 상관관계를 분석하여 결과값을 도출하므로, 확률적인 텍스트 생성 방식과 차별화된 명확한 예측치를 제공한다. 데이터 사이언티스트는 이제 변수 가공 단계 없이 원시 데이터를 입력해 즉시 예측 성능을 검증하는 단계로 진입한다.

단일 테넌트 및 네트워크 격리 기반의 엔터프라이즈 보안 구조

NEXUS는 아마존 세이지메이커 AI(Amazon SageMaker AI)의 관리형 환경 내에서 전용 단일 테넌트(Single-tenant) 및 네트워크 격리 GPU 인스턴스 기반으로 실행된다. 단일 테넌트 구조는 특정 고객사만을 위한 전용 자원을 할당하여 다른 사용자와의 자원 공유를 물리적, 논리적으로 차단한다. 이는 민감한 데이터를 다루는 기업이 공유 인프라에서 우려하는 데이터 혼입 가능성을 원천적으로 제거하는 보안 장치로 작동한다.

모든 데이터는 추론 과정 전반에 걸쳐 사용자의 AWS 환경 내에 그대로 유지된다. NEXUS의 엔드포인트는 네트워크가 격리된 상태로 운영되어, 데이터를 외부 서버로 전송하지 않고 전용 환경 내에서 모든 예측 워크플로우를 완결한다. 이러한 구조는 금융, 의료, 제조 등 엄격한 데이터 거버넌스와 보안 가이드라인을 준수해야 하는 엔터프라이즈 워크로드에 최적화되어 있다.

배포 워크플로우는 데이터 업로드, 모델 선택, 예측 실행의 세 단계로 단순화되어 운영 효율을 높인다. 세이지메이커 AI는 GPU 인스턴스의 할당과 확장 같은 하드웨어 제어 작업을 전담하여 관리한다. 엔지니어는 CUDA 라이브러리 의존성 해결이나 서버 설정과 같은 인프라 관리의 중노동(Undifferentiated heavy lifting)에서 벗어나 비즈니스 로직 최적화에만 집중할 수 있다.

설비 고장 예측부터 금융 사기 탐지까지의 실무 적용

NEXUS는 원시 정형 데이터에서 직접 신호를 추출하여 다양한 산업 현장의 예측 과제를 해결한다. 설비 고장 예측(Equipment failure prediction) 시나리오에서 모델은 공정 센서 데이터와 장비 로그가 담긴 테이블을 입력받아 고장 징후를 결정론적으로 찾아낸다. 과거에는 분석가가 진동 수치나 온도 변화율 같은 파생 변수를 직접 계산해 입력해야 했으나, NEXUS는 원본 데이터를 그대로 사용하여 예측값을 도출한다.

공급망 최적화(Supply chain optimization) 영역에서는 물류 로그와 재고 데이터를 통해 병목 지점을 즉각적으로 예측한다. 기업은 복잡한 공급망 데이터셋을 모델에 입력함으로써 재고 부족이나 운송 지연 가능성을 빠르게 파악하고 대응 전략을 수립한다. 이는 데이터 전처리에 소요되던 시간을 줄여 공급망의 변동성에 실시간으로 대응할 수 있는 체계를 구축하게 한다.

금융 사기 탐지(Financial fraud detection) 분야에서도 관계형 데이터베이스의 거래 내역과 사용자 행동 패턴 테이블을 그대로 활용해 이상 징후를 포착한다. 사기 패턴을 정의하고 이를 수식으로 구현하는 반복적인 피처 설계 루프를 제거함으로써 탐지 모델의 배포 속도를 높인다. LTM의 신호 추출 능력을 통해 수백 개의 가설을 세우고 검증하던 기존의 실험 단계를 획기적으로 단축한다.

프로덕션 전환 기간 단축과 전략적 파트너십의 가치

Fundamental과 AWS는 기업의 LTM 도입을 가속화하기 위해 전략적 파트너십을 체결했다. 이 파트너십을 통해 기업은 복잡한 네트워크 설정이나 GPU 최적화 과정 없이 검증된 보안 프레임워크 위에서 NEXUS를 즉시 배포할 수 있다. 관리형 환경의 제공은 개별 기업이 직접 구축하기 어려운 엔터프라이즈급 보안 수준과 확장성을 즉각적으로 확보하게 만든다.

NEXUS의 도입으로 기업은 정형 데이터 기반 예측 모델의 프로덕션 전환 기간을 수개월에서 수일 단위로 단축한다. 데이터 사이언티스트는 더 이상 변수 생성이라는 반복 노동에 매달리지 않고, 도출된 예측값을 비즈니스 결과로 연결하는 전략적 업무에 집중한다. 이는 인프라 관리와 피처 설계에 투입되던 리소스를 비즈니스 성과(Outcome) 도출로 전환하는 결과를 낳는다.

결과적으로 정형 데이터 예측의 경쟁력은 피처를 얼마나 정교하게 설계하느냐가 아니라, 준비된 파운데이션 모델을 얼마나 빠르게 실제 서비스에 이식하느냐로 이동한다. 기업은 NEXUS와 세이지메이커 AI의 결합을 통해 원시 구조화 데이터에서 프로덕션 등급의 예측 결과물을 얻기까지의 리드 타임을 최소화하며 데이터 기반 의사결정 속도를 극대화한다.