초당 400토큰 쏟아내는 Step 3.7 Flash, AI 에이전트 '실행' 속도 잡았다

초당 400토큰 처리하는 1980억 파라미터 MoE 구조

AI 에이전트가 수백 페이지의 금융 보고서를 분석하거나 여러 소스를 교차 검증하며 검색 루프를 실행할 때 사용자는 응답이 올 때까지 화면을 멍하니 바라보며 기다려야 한다. StepFun이 공개한 Step 3.7 Flash는 희소 전문가 혼합(sparse MoE, 모델의 일부 파라미터만 활성화해 효율을 높이는 기술) 방식을 적용해 초당 최대 400토큰의 처리 속도를 구현했다. 전체 1980억 개의 파라미터를 보유하고 있지만, 실제 추론 과정에서는 토큰당 약 110억 개의 파라미터만 활성화하는 구조를 택했다. 대규모 모델이 가진 지능적 성능은 유지하면서 추론 시 발생하는 연산 부하를 낮춰 지연 시간을 최소화한 결과다. 이는 실시간 응답성이 서비스 성패를 가르는 고빈도 생산 환경에서 에이전트의 실행 속도를 물리적으로 확보하는 핵심 기제로 작동한다.

모델의 세부 아키텍처는 1960억 개의 파라미터로 구성된 언어 백본과 18억 개의 파라미터를 가진 시각 인코더가 결합된 형태다. 시각 인코더를 통해 이미지에 대한 네이티브 이해가 가능하며, 한 번에 처리할 수 있는 데이터 양인 컨텍스트 윈도우는 256k를 지원한다. 수십 권의 문서나 방대한 로그 데이터를 한 번에 입력해도 맥락을 놓치지 않고 처리할 수 있는 용량이다. 특히 개발자는 서비스 목적에 따라 저수준, 중간 수준, 고수준의 세 가지 추론 레벨을 선택할 수 있다. 단순한 정보 추출에는 저수준을, 복잡한 논리 전개가 필요한 작업에는 고수준을 선택해 속도와 비용, 인지적 깊이 사이의 균형을 정밀하게 조정하는 방식이다.

운영 비용은 입력 토큰 100만 개당 캐시 미스 시 0.20달러, 캐시 히트 시 0.04달러로 책정되었으며 출력 토큰은 100만 개당 1.15달러다. 고속 추론을 위해 파라미터 활성화를 최적화한 MoE 구조가 실제 청구 비용의 효율성으로 연결된 결과다. 특히 캐시 히트 시 비용이 5분의 1 수준으로 낮아지는 구조는 반복적인 쿼리가 발생하는 에이전트 워크플로우에서 운영 비용 부담을 크게 줄인다. 기업이 AI 에이전트를 실제 상용 서비스에 도입할 때 직면하는 처리 속도와 토큰당 비용이라는 두 가지 물리적 제약을 동시에 해결해 도입 문턱을 낮췄다. 고성능 모델을 쓰면서도 응답 속도 때문에 기능을 제한해야 했던 기존의 제약을 수치로 해결한 셈이다.

SimpleVQA 1위와 SWE-Bench PRO 2위가 증명한 실행력

AI 에이전트가 화면의 버튼 위치를 찾지 못해 엉뚱한 클릭을 반복하거나 차트의 수치를 잘못 읽는 상황은 흔한 일이다. Step 3.7 Flash는 SimpleVQA 검색 부문에서 79.2점을 기록하며 1위에 올랐다. 파이썬 코드를 활용한 시각 추론 평가인 V*에서도 95.3점을 기록하며 최상위 모델 수준의 성능을 입증했다. 이 모델은 사용자 인터페이스(User Interface) 와이어프레임이나 그래픽 사용자 인터페이스(Graphical User Interface) 및 데이터 차트처럼 정보가 밀집된 시각 자료를 구조화된 코드로 변환하는 작업에 특화되어 있다. 특히 시각적 자산이 불완전할 때 모델이 스스로 누락된 데이터를 식별하고 외부 조회를 통해 맥락을 검증한 뒤 최종 결론을 내리는 자율적 동작을 수행한다. 이는 개발자가 UI 설계도를 입력했을 때 단순 묘사가 아니라 실제 구현 가능한 코드 구조로 출력하는 속도와 정확도를 높이는 결과로 이어진다.

에이전트의 실행 신뢰성을 측정하는 ClawEval-1.1에서는 67.1점을 기록했다. 이는 2위 그룹의 점수인 59.8점을 크게 상회하는 결과다. 모델이 적대적인 함정에 빠지지 않고 시스템 정책을 엄격히 준수하며 다회차 오케스트레이션을 수행할 수 있는 능력을 갖췄음을 보여준다. Toolathlon 49.5점과 HLE w. Tool 48.1점이라는 수치는 응용 프로그램 인터페이스(Application Programming Interface)와의 상호작용 과정에서 지침을 이탈하지 않는 궤적 무결성을 뒷받침한다. 복잡한 API 호출 순서가 얽힌 장기 워크플로우에서도 초기 지시 사항을 끝까지 유지하며 작업을 완수하는 실행력이 핵심이다.

소프트웨어 엔지니어링 역량은 실제 개발 환경의 복잡도를 반영한 SWE-Bench PRO에서 전체 2위인 56.3점을 기록하며 증명됐다. 단순히 코드 조각을 생성하는 수준을 넘어 여러 파일로 구성된 저장소를 독립적으로 추적하고 이슈 보고서에서 버그를 격리해 자동화된 단위 테스트를 통과하는 기능적 패치를 생성한다. Terminal-Bench 2.1에서 59.5점, GDPVal-AA에서 45.8점을 기록하며 시스템 상호작용과 전문적인 결과물 생성의 안정성을 확보했다. 개발자는 터미널 환경에서 모델이 직접 파일을 수정하고 테스트를 실행하며 오류를 교정하는 일련의 엔지니어링 과정을 자동화하는 도구로 활용할 수 있다.

배포 환경은 클라우드와 로컬을 모두 지원해 도입 문턱을 낮췄다. StepFun 오픈 플랫폼과 OpenRouter, NVIDIA NIM을 통해 즉시 사용 가능하다. 로컬 배포의 경우 NVIDIA DGX Station이나 AMD Ryzen AI Max+ 395 기반 시스템에서 구동된다. 128GB 이상의 메모리를 탑재한 Mac Studio 및 Macbook Pro에서도 실행할 수 있어 고성능 워크스테이션을 보유한 개발 환경에서 즉각적인 적용이 가능하다. 이는 기업이 민감한 내부 코드를 외부 서버로 전송하지 않고 로컬 인프라 내에서 소프트웨어 엔지니어링 에이전트를 운용할 수 있는 환경을 제공한다.

AI 에이전트가 금융 보고서를 분석하거나 검색 루프를 실행할 때 발생하는 지연 시간은 실질적인 도입의 병목이었다. Step 3.7 Flash는 전체 1980억 개 파라미터 중 토큰당 약 110억 개만 활성화하는 희소 전문가 혼합(sparse MoE) 구조를 통해 초당 최대 400토큰의 처리 속도를 구현했다.

이제 기업은 실시간 응답성이 필수적인 고빈도 생산 환경에서 도입 비용과 처리 속도의 상관관계를 면밀히 가늠해야 한다. AI 에이전트의 실효성은 이제 추론 능력을 넘어 실행의 즉각성에서 결정된다.

초당 400토큰 쏟아내는 Step 3.7 Flash, AI 에이전트 '실행' 속도 잡았다

초당 400토큰 처리하는 1980억 파라미터 MoE 구조

SimpleVQA 1위와 SWE-Bench PRO 2위가 증명한 실행력

관련 기사