텍스트 인터페이스에 갇혀 있던 챗봇이 화면을 직접 보고 코드를 수정하는 멀티모달 에이전트로 확장되고 있다. 질문창 하나가 실제 GUI를 렌더링하고 검토하며 반복 수정하는 업무 인프라로 진화한 것이다.
StepFun이 Step 3.7 Flash를 공개했다. 이 모델은 네이티브 비전 입력 기능을 추가하고 도구 사용의 신뢰도를 높여 에이전트 활용 사례에 최적화했다. 텍스트 전용이었던 이전 버전 Step 3.5 Flash와 달리, 이미지 이해를 통해 GUI 기반의 복잡한 코딩 작업과 검색 워크플로우를 직접 수행한다.
198B MoE 구조와 1.8B ViT 인코더 탑재
Step 3.7 Flash는 전체 198B 파라미터 규모의 희소 Mixture-of-Experts(MoE, 전문가 혼합) 구조를 채택했다. MoE는 입력된 토큰의 특성에 맞는 일부 전문가 네트워크만 선택적으로 활성화하여, 거대 모델의 지식 저장소는 유지하면서 실제 연산에 투입되는 자원을 최소화하는 방식이다. 이를 통해 모델 크기 증가에 따른 하드웨어 요구사항과 전력 소모 문제를 해결했다.
내부 구조는 196B 파라미터의 언어 백본과 1.8B 파라미터의 비전 인코더(ViT, Vision Transformer)가 결합된 형태다. 1.8B 규모의 ViT 모듈은 이미지의 시각적 표현을 추출해 언어 백본의 컨텍스트에 직접 주입한다. 시각 정보를 외부 도구 없이 모델 내부에서 직접 처리함으로써 이미지 이해의 정확도와 속도를 높였다.
추론 단계에서 실제로 가동되는 파라미터는 토큰당 약 11B 수준으로 제한된다. 전방 패스(Forward Pass) 시 일부 전문가 서브 네트워크만 호출하기 때문에, 198B의 지식을 학습시키면서도 실제 연산 부하는 11B 규모의 밀집(Dense) 모델과 유사하게 유지된다.
개발자는 서비스 목적에 따라 지연 시간과 추론 깊이를 조절할 수 있는 Low, Medium, High의 3단계 설정을 선택할 수 있다. Low 설정은 응답 속도와 비용 절감에 집중하며, High 설정은 응답당 더 많은 계산량을 투입해 논리적 깊이를 더한다. 개발자가 자원 효율성을 직접 최적화할 수 있도록 제어권을 부여한 설계다.
어드바이저 모드와 두 가지 시각적 도구 경로
Step 3.7 Flash는 에이전트 운영 비용을 낮추기 위해 어드바이저 모드(Advisor Mode)를 도입했다. 모델이 도구를 호출하고 결과를 읽는 에이전트 루프를 직접 수행하다가, 전체 계획 수립이 필요하거나 반복적으로 실패하는 변곡점에서만 상위 어드바이저 모델로 작업을 에스컬레이션한다. 대부분의 실행 과정이 저렴한 실행기 비용으로 처리되는 구조다.
시각 정보 처리에서는 학습 데이터만으로 인식하기 어려운 대상이 나타나면 비주얼 서치 툴(Visual Search Tool)을 호출해 정보를 검색하고 검증한다. 검색 기능을 추론 루프의 핵심 일부로 통합해 계획 수립, 증거 필터링, 최종 합성이 유기적으로 일어나도록 설계했다. 이 경로를 통해 SimpleVQA 벤치마크에서 79.16%의 정답률을 기록했으며, 이는 GPT 5.5(79.11%), Kimi K2.6(78.24%), GLM 5V Turbo(78.20%)보다 높은 수치다.
정밀 분석이 필요한 고해상도 이미지 작업은 파이썬 툴(Python Tool) 경로가 담당한다. 모델이 직접 코드를 작성해 이미지의 특정 영역을 크롭하거나 줌인하고, 바운딩 박스를 그려 픽셀 단위로 분석한다. V 벤치마크에서 95.29%, HR-Bench 4K와 8K에서 각각 89.13%와 86.34%의 성능을 보였다. 특히 모델이 프론트엔드 코드를 생성한 뒤 GUI로 렌더링된 결과를 스스로 검토하고 수정하는 자율적인 루프를 수행했다.
Claude Opus 4.6 대비 1/9 비용으로 구현한 성능
어드바이저 모드를 통한 비용 재설계 결과, SWE-Bench Verified 테스트에서 작업당 비용을 0.19달러로 낮췄다. 이는 클로드 오푸스 4.6(Claude Opus 4.6)의 작업당 비용인 1.76달러 대비 약 9분의 1 수준이다. 성능은 오푸스 4.6의 97% 수준까지 달성해 고성능 모델의 결과물을 유지하면서 운영 비용을 덜어냈다.
실제 코딩 작업 성공률도 향상됐다. SWE-Bench Pro에서 Step 3.7 Flash는 56.26%를 기록해 이전 버전인 Step 3.5 Flash(51.3%)보다 약 5%p 상승했다. 터미널-벤치 2.1(Terminal-Bench 2.1)에서도 기존 53.37%를 넘어선 59.55%를 기록했다.
모바일 UI 작업 수행 능력에서도 경쟁력을 보였다. 안드로이드 데일리(Android Daily) 벤치마크에서 61.87%의 성공률을 기록해 키미 K2.6(53.36%)과 GLM 5V 터보(51.68%)를 상회했다. 구글의 제미나이 3 플래시(Gemini 3 Flash)가 63.21%로 가장 앞서지만, 다른 경량 모델들과는 확연한 성능 차이를 보인다.
120GB VRAM 요구량과 오픈소스 백엔드 지원
로컬 환경 구동을 위한 최소 사양은 120GB의 통합 메모리 또는 VRAM이다. MoE 구조 특성상 추론 시 활성화되는 파라미터는 11B지만, 전체 198B 가중치가 메모리에 상주해야 하기 때문이다. 따라서 A100, H100 등 엔터프라이즈급 GPU 여러 장이나 대용량 통합 메모리 하드웨어가 필수적이다.
배포 진입 장벽을 낮추기 위해 vLLM, SGLang, llama.cpp, Hugging Face Transformers v5.0 이상 버전을 지원한다. 양자화 포맷은 BF16, FP8, NVFP4, GGUF를 모두 제공하여 GPU 아키텍처와 메모리 가용량에 따라 정밀도를 선택할 수 있다. 특히 GGUF 지원을 통해 CPU 기반 추론이나 맥 스튜디오 환경에서의 구동 가능성을 열어두었다.
인프라 투자 효과는 벤치마크 수치로 나타난다. ClawEval-1.1 테스트에서 Step 3.7 Flash는 67.07%를 기록하며 DeepSeek V4 Flash(57.80%)와 DeepSeek V4 Pro(59.80%)를 모두 앞섰다. 플래시급 모델이 프로급 모델의 성능을 넘어선 것은 198B의 파라미터 예산을 유지한 채 추론 효율만 챙긴 MoE 구조의 결과다.
한국 AI 실무자를 위한 '비용 효율적 에이전트' 설계 전략
실무자는 모든 과정을 최상위 모델에 맡기는 대신, 단순 도구 호출과 결과 확인은 실행 모델이 처리하고 결정적 시점에만 상위 모델로 에스컬레이션하는 하이브리드 아키텍처를 설계해야 한다. Step 3.7 Flash는 이러한 구조를 통해 성능 타협 없이 운영 비용을 낮출 수 있는 수치적 근거를 제시했다.
검색 기능을 추론 루프 내의 계획-필터링-합성 과정으로 통합하는 전략이 유효하다. AA-LCR(롱컨텍스트 검색) 벤치마크에서 63.94%를 기록하며 DeepSeek V4 Pro(66.30%)에 근접한 성능을 보였다. 또한 도구를 활용한 HLE with Tools 점수가 47.20%로, 텍스트 전용이었던 Step 3.5 Flash(35.68%)보다 크게 상승해 도구 사용의 신뢰도가 높아졌음을 입증했다.
결과적으로 0.19달러라는 비용으로 클로드 오퍼스 4.6 성능의 97%를 구현한 것은 고성능 모델의 진입 장벽이 낮아졌음을 의미한다. 추론 비용이 임계점 아래로 내려가면서 기업들은 대규모 워크플로우에 최상위 모델급 지능을 즉시 배치할 수 있는 환경이 조성됐다.
기술적 완성도가 상향 평준화된 지금, AI 경쟁의 핵심은 절대적 성능 수치가 아닌 투입 비용 대비 산출 효율이 됐다. 결국 누가 더 적은 자원으로 최상위 모델의 결과물을 안정적으로 내느냐가 AI 도입의 실질적 성패를 결정한다.
0.19달러라는 비용으로 클로드 오퍼스 4.6 성능의 97%를 구현한 결과는 고성능 모델의 진입 장벽이 무너졌음을 보여준다. 추론 비용이 임계점 아래로 내려가면서 기업들은 성능 타협 없이 대규모 워크플로우에 최상위 모델급 지능을 즉시 배치할 수 있는 환경을 맞이했다.
기술적 완성도가 상향 평준화된 지금, AI 경쟁의 핵심은 절대적 성능 수치가 아닌 투입 비용 대비 산출 효율로 이동한다. 결국 누가 더 적은 자원으로 최상위 모델의 결과물을 안정적으로 내느냐가 AI 도입의 실질적 성패를 결정한다.




