마이크로소프트 Fara1.5 공개, OpenAI 오퍼레이터 제치고 브라우저 제어권 확보

72%.

Fara1.5-27B 모델이 Online-Mind2Web 벤치마크에서 기록한 작업 성공률이다. 136개 인기 사이트의 300개 과제를 수행한 결과로, 현재 공개된 브라우저 제어 에이전트 중 최상위권의 정밀도를 증명했다. 기존의 AI 에이전트들이 웹페이지의 복잡한 DOM 구조나 동적인 UI 변화 앞에서 길을 잃었다면, Fara1.5는 마치 숙련된 사용자가 브라우저를 다루듯 정확하게 목적지에 도달한다.

그리고 이번 공개는 단순한 성능 개선을 넘어, AI가 OS의 인터페이스를 직접 제어하는 '컴퓨터 사용(Computer-Use)' 시장의 주도권을 누가 쥐느냐는 전략적 포석과 맞닿아 있다. 마이크로소프트 리서치(Microsoft Research)의 AI 프런티어스(AI Frontiers) 랩이 내놓은 이번 모델은 픽셀 데이터를 직접 읽어 마우스와 키보드 액션으로 변환하는 '픽셀-투-액션(Pixel-to-Action)' 방식을 채택했다. 이는 API 연동이라는 기존의 제약을 깨고, 인간이 사용하는 모든 웹 인터페이스를 AI의 작동 범위로 끌어들였다는 점에서 비즈니스 임팩트가 크다. 특히 OpenAI의 오퍼레이터(Operator)와 구글의 제미나이 2.5(Gemini 2.5) 컴퓨터 유즈를 정면으로 겨냥하며, 브라우저라는 거대한 진입로를 선점하려는 의도를 분명히 했다.

Fara1.5-27B, OpenAI 오퍼레이터의 58.3%를 압도

개발팀이 공개한 벤치마크 수치는 여기서 갈린다. 마이크로소프트가 공개한 Fara1.5-27B는 Online-Mind2Web(136개 인기 사이트의 300개 과제를 수행하는 벤치마크)에서 72%의 성공률을 기록했다. 경쟁 모델인 OpenAI의 오퍼레이터(Operator)가 58.3%에 그친 것과 대조적이다. 구글의 제미나이 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use) 역시 57.3%의 성공률을 보이며 뒤처졌다. 이는 단순한 수치 우위를 넘어 브라우저 제어권이라는 새로운 전장에서 마이크로소프트가 실질적인 주도권을 잡았음을 의미한다. 스크린샷을 읽고 마우스와 키보드 동작을 직접 수행하는 픽셀-투-액션(pixel-to-action) 방식의 효율성을 입증한 결과다.

모델의 체급을 낮춰도 효율은 여전하다. Fara1.5-9B 모델은 63.4%의 성공률을 기록하며 상위권 모델들과 어깨를 나란히 했다. 전작인 Fara-7B가 34.1%에 머물렀던 점을 고려하면 성능이 거의 두 배 가까이 수직 상승한 셈이다. 마이크로소프트는 4B, 9B, 27B라는 세 가지 크기의 라인업을 동시에 출시하며 시장의 요구에 맞춘 정밀한 포석을 뒀다. 저사양 환경부터 고성능 서버까지 대응 가능한 모델 체계를 구축해 에이전트 배포의 확장성을 확보했다. 이는 특정 하드웨어 제약 없이 에이전트를 보급하겠다는 의지가 반영된 설계다.

기술적 완성도는 실행 환경의 통합에서 완성된다. Fara1.5 시리즈는 마젠틱라이트(MagenticLite, 마이크로소프트의 샌드박스형 브라우저 인터페이스)와 결합되어 작동한다. 모델이 단순히 명령을 내리는 수준을 넘어 실제 브라우저를 안전하게 제어하는 닫힌 생태계를 구축한 것이다. 픽셀 단위로 화면을 읽고 마우스와 키보드 동작을 수행하는 CUA(Computer Use Agent, 컴퓨터 사용 에이전트) 모델의 실용성을 극대화했다. 이는 모델의 지능뿐 아니라 그것이 구동되는 인터페이스까지 장악해 보안과 성능을 동시에 잡겠다는 전략이다.

이번 출시는 AI 에이전트 시장의 지형을 근본적으로 바꾼다. 텍스트 생성 중심의 LLM 시대에서 실제 웹 인터페이스를 조작하는 액션 중심의 시대로 전환되는 변곡점이다. 마이크로소프트는 모델 성능과 실행 환경을 동시에 제공하며 경쟁사들이 쉽게 넘볼 수 없는 진입 장벽을 높였다. OpenAI와 구글이 구축하던 에이전트 생태계에 강력한 균열을 내는 결과다. 브라우저 제어라는 핵심 인터페이스를 선점함으로써 기업용 소프트웨어 시장에서의 비즈니스 임팩트를 극대화하려는 계산이 깔려 있다. 이제 시장의 관심은 단순한 대화형 AI에서 실제 업무를 수행하는 실행형 AI로 빠르게 옮겨가고 있다.

'관찰-사고-행동' 루프와 Qwen3.5 기반의 구동 체계

Fara1.5는 알리바바의 LLM인 Qwen3.5(큐웬 3.5) 베이스 체크포인트를 기반으로 설계됐다. 구동의 핵심은 관찰-사고-행동(Observe-Think-Act)으로 이어지는 루프 구조다. 모델은 매 단계에서 이전 대화 기록과 가장 최근에 캡처된 3장의 브라우저 스크린샷을 동시에 입력받는다. 시각적 데이터와 텍스트 맥락을 결합해 현재 상태를 진단하고 다음 행동을 결정하는 방식이다. 단순한 텍스트 처리를 넘어 픽셀 단위의 변화를 실시간으로 추적하며 최적의 경로를 도출한다. 최근 3장의 스크린샷을 활용함으로써 화면 전환의 흐름과 시간적 맥락을 동시에 파악한다.

액션 공간은 실제 사용자의 조작 방식을 그대로 모사하는 구조를 취한다. 표준 마우스 클릭과 키보드 입력은 물론 웹 검색과 같은 브라우저 특화 액션을 직접 수행한다. 이는 모델이 API 기반의 정형화된 데이터가 아니라 실제 웹 인터페이스의 픽셀을 직접 제어하는 픽셀-투-액션(Pixel-to-Action) 체계임을 의미한다. 화면상의 버튼 위치와 입력창의 좌표를 정확히 파악해 물리적 입력을 생성한다. 이러한 접근은 웹사이트의 HTML 구조가 변경되어도 시각적 요소만 유지된다면 유연하게 대응할 수 있는 기술적 지형을 만든다.

단순 반복 작업을 넘어 장기 과제를 수행하기 위해 메타 액션(Meta-action)이라는 전략적 레이어를 도입했다. 사실 기억(Memorizing) 액션을 통해 작업 도중 발견한 핵심 정보를 내부 메모리에 저장하고 이를 이후 단계에서 적절히 호출해 사용한다. 사용자 확인 요청(Clarification) 액션은 지시 사항이 모호하거나 되돌릴 수 없는 위험한 작업이 예상될 때 모델이 스스로 멈춰 질문하게 만든다. 이는 에이전트가 단기적인 반응에 그치지 않고 전체 작업의 흐름을 능동적으로 관리하는 포석이 된다. 기억과 소통 능력을 통해 복잡한 다단계 워크플로우에서도 일관성을 유지하는 능력을 확보했다.

실제 웹 환경의 변수와 불안정성을 제어하기 위해 Browserbase(브라우저베이스, 브라우저 세션 안정화 및 블로킹 방지 도구)를 도입했다. 봇 탐지 시스템에 의한 세션 차단을 방지하고 브라우저 구동의 일관성을 유지하는 인프라적 장치다. 이는 마이크로소프트의 샌드박스 브라우저 인터페이스인 MagenticLite(마젠틱라이트)와 결합해 보안 경계를 형성한다. 세션의 연속성을 보장함으로써 모델의 고도화된 추론 능력이 실제 브라우저 액션으로 끊김 없이 전환되도록 설계했다. 결과적으로 모델의 지능과 실행 환경 사이의 간극을 좁혀 실효성 있는 제어권을 확보했다.

FaraGen1.5 파이프라인이 만든 합성 데이터의 격차

개발팀이 공개한 학습 데이터의 총량은 200만 개다. 데이터 구성비는 전략적이다. 웹 궤적 60%, 합성 환경 12.8%, 폼 채우기 12.5%, 그라운딩(Grounding, 모델 출력을 실제 환경 객체와 연결하는 과정) 8.8%, VQA(Visual Question Answering, 시각적 질의응답) 4.9%로 배분했다. 단순한 데이터 양의 확장이 아니라 데이터의 성격과 비율을 조정해 성능의 임계점을 넘겼다. 이는 정제되지 않은 웹 데이터의 노이즈를 정교하게 설계된 합성 데이터로 상쇄하려는 포석이다.

FaraEnvs(파라엔브스, 합성 클론 환경)는 이번 파이프라인의 핵심 지형을 바꾼 장치다. 메일, 캘린더, 스트림, ML, 스테이, 스케줄러 등 6종의 합성 환경을 구축했다. 로그인이 필요하거나 메일 발송처럼 되돌릴 수 없는 액션이 발생하는 게이트 도메인(Gated-domain, 권한 제한 영역)의 데이터 부족 문제를 정면으로 돌파했다. 각 클론 환경은 실제와 유사한 프론트엔드와 완전히 작동하는 API, 페르소나 기반의 시드 데이터를 갖춘 데이터베이스를 포함한다. 풀스택을 직접 제어함으로써 모든 작업의 정확한 결과값을 실시간으로 확보할 수 있는 구조를 만들었다.

검증 체계는 이중 구조로 설계되어 데이터의 밀도를 높였다. 백엔드 상태를 변화시키는 작업은 실행 전후의 DB 스냅샷을 비교해 정답 여부를 판가름했다. 상태 변화가 없는 작업은 미리 계산된 참조 답안과 대조했다. 오픈 인터넷 작업의 경우에는 LLM 루브릭(Rubric, 평가 기준표)을 활용해 정합성을 검증했다. 여기에 불필요한 동작을 수행하는 경로에 페널티를 부여하는 효율성 검증과 결정적 순간에 사용자에게 확인을 요청하는지 체크하는 상호작용 검증을 추가했다. 데이터의 양보다 질적인 완결성에 집중한 결과다.

데이터를 생성하는 솔버(Solver, 문제 해결 모델)의 성능 향상도 결정적이다. GPT-5.4 기반의 솔버는 Online-Mind2Web(웹 에이전트 성능 측정 벤치마크)에서 83%의 성공률을 기록했다. 이전 세대인 Fara-7B 솔버가 기록한 67%를 크게 상회하는 수치다. 솔버가 ask_user 호출을 내리거나 작업을 마칠 때 사용자 시뮬레이터를 호출해 궤적의 완성도를 높였다. 고성능 모델이 생성한 고품질의 궤적을 다시 소형 모델이 학습하는 증류 과정이 작동했다. 단순히 웹을 크롤링해 학습시키던 기존의 패러다임은 이제 유효하지 않다. 정교한 합성 환경을 설계하고 이를 통해 고순도 데이터를 추출하는 능력이 AI 에이전트 시장의 새로운 진입장벽이 됐다.

샌드박스 보안과 책임 있는 AI 정책의 결합

개발자가 가장 우려하는 지점은 에이전트의 자율권이 사용자 기기의 제어권으로 전이되는 순간이다. 마이크로소프트는 MagenticLite(마그네틱라이트, 샌드박스 기반 브라우저 인터페이스)를 통해 이 경계를 물리적으로 분리했다. 에이전트는 샌드박스라는 격리된 환경 내에서만 브라우저를 조작한다. 사용자 기기의 OS나 로컬 파일 시스템에 직접 접근하는 경로를 원천 차단한 설계다. 이는 단순한 기능 추가가 아니라 기업용 AI 시장의 진입 장벽을 낮추려는 전략적 포석이다. 보안 사고의 리스크를 샌드박스 내로 한정함으로써 엔터프라이즈 환경에서의 도입 가능성을 높였다. 기업 입장에서 AI 에이전트 도입의 최대 걸림돌은 통제 불가능한 행동에 따른 데이터 유출이나 시스템 파괴였다. MagenticLite는 이 리스크를 기술적으로 격리하며 비즈니스 임팩트를 극대화하는 구조를 취했다.

자율성의 범위를 결정하는 것은 명확한 중단 지점의 설정이다. Fara1.5는 세 가지 상황에서 동작을 멈추고 사용자 확인을 요청한다. 첫째는 제공되지 않은 개인정보가 필요할 때다. 둘째는 지시 사항이 모호해 실행 단계에서 혼선이 예상될 때다. 셋째는 메일 발송처럼 되돌릴 수 없는 행동을 수행하기 직전이다. 이러한 제어 메커니즘은 마이크로소프트의 책임 있는 AI 정책(Responsible AI Policy)을 기술적으로 구현한 결과다. 에이전트에게 전권을 부여하는 대신 인간의 최종 승인 단계를 배치해 책임 소재를 명확히 했다. 이는 AI 에이전트의 지형이 단순한 자동화를 넘어 거버넌스 체계의 구축으로 이동하고 있음을 보여준다. 특히 되돌릴 수 없는 행동에 대한 제어는 금융 결제나 고객 응대 같은 고부가가치 비즈니스 프로세스에서 필수적인 안전장치다. 인간의 개입 시점을 정교하게 설계함으로써 자율성과 안전성 사이의 충돌을 해결했다.

보안 강화가 성능 저하로 이어지지 않았다는 점은 벤치마크 수치로 증명된다. 웹 브라우징 능력을 측정하는 WebVoyager(웹보이저) 테스트에서 Fara1.5-27B 모델은 88.6%의 성공률을 기록했다. Fara1.5-9B는 86.6%, Fara1.5-4B는 80.8%를 달성했다. 모델 크기가 작아져도 80% 이상의 높은 정확도를 유지한다는 점에 주목해야 한다. 이는 보안 샌드박스와 제어 로직이 모델의 추론 효율성을 저해하지 않고 조화롭게 작동하고 있음을 의미한다. 효율적인 모델 사이즈에서도 높은 성능을 낸다는 것은 온디바이스 AI 에이전트로의 확장 가능성을 시사한다. 보안과 성능이라는 두 마리 토끼를 잡으며 시장의 표준을 선점하려는 의도가 읽힌다. 고성능 소형 모델의 확보는 인프라 비용 절감과 응답 속도 개선으로 이어져 서비스 경쟁력을 결정짓는 핵심 요소가 된다.

한국 AI 실무자가 주목할 '브라우저 에이전트'의 비즈니스 임팩트

한국 기업의 전산 환경은 여전히 API(응용 프로그램 인터페이스)가 제공되지 않는 레거시 시스템의 비중이 압도적이다. 현업 실무자가 자동화를 위해 API 연동을 요청해도 보안 정책이나 노후화된 아키텍처라는 이유로 거절당하는 사례가 빈번하다. 브라우저 에이전트는 이 지점에서 자동화의 지형을 근본적으로 바꾼다. API라는 통로 없이 화면의 픽셀을 직접 읽고 마우스와 키보드를 제어하는 방식이기 때문이다. 이는 시스템의 내부 구조를 수정하지 않고도 사용자 관점의 모든 동작을 자동화할 수 있는 환경을 구축한다.

실질적인 비즈니스 적용 가능성은 복잡하고 빈도가 낮은 롱테일 과제를 측정하는 WebTailBench v1.5 수치에서 확인된다. Fara1.5-9B 모델은 해당 벤치마크에서 64.5%의 프로세스 성공률을 기록하며 실무 수준의 수행 능력을 증명했다. 더 높은 성능을 가진 GPT-5.4는 프로세스 성공률 79.6%를 달성하며 인간의 개입 없이도 복잡한 웹 과제를 완수할 가능성을 높였다. 단순한 클릭 반복이 아니라 웹 페이지의 맥락을 이해하고 다음 행동을 결정하는 추론 능력이 수치로 입증된 셈이다. 이는 예외 상황이 많은 실제 업무 환경에서도 에이전트가 스스로 경로를 찾아 작업을 완수할 수 있음을 시사한다.

이러한 변화는 API 미지원 서비스의 자동화 가능성을 비약적으로 확대한다. 기존의 RPA(로봇 프로세스 자동화)는 UI 요소의 위치나 ID가 조금만 바뀌어도 작동이 멈추는 경직성을 보였다. 반면 브라우저 에이전트는 시각적 이해를 바탕으로 유연하게 대응하는 UI 기반 워크플로우 자동화 도구로 확장된다. 기업은 이제 소프트웨어 벤더의 API 공개 일정에 맞추는 대신 AI 에이전트를 배치해 즉시 비즈니스 프로세스를 최적화하는 전략을 취할 수 있다. 이는 개발 리소스를 투입하지 않고도 전사적 운영 효율을 높이는 가장 빠른 경로가 된다.

결국 제어권의 중심이 API 제공자에서 에이전트 오케스트레이터로 이동하는 포석이 깔리고 있다. 데이터의 흐름을 통제하던 API 경제의 시대에서 사용자 경험(UX)을 직접 점유하고 조작하는 에이전트 경제의 시대로 전환되는 과정이다. 한국의 AI 실무자들에게 이는 단순한 툴의 교체가 아니라 전사적 자원 관리와 운영 효율화의 패러다임을 바꾸는 사건이다. UI 기반 자동화는 폐쇄적인 기업 내부망과 최신 SaaS를 유연하게 잇는 가장 강력한 가교가 될 것이다. 인터페이스를 직접 장악하는 모델이 시장의 새로운 권력이 되는 지형이 형성되고 있다.