마이크로소프트가 앱 대신 AI 에이전트를 실행하는 기기 플랫폼

간호사가 환자 데이터를 확인하려고 개인 스마트폰을 꺼내는 상황은 보안 취약점과 불편함을 동시에 만든다. 마이크로소프트는 이 문제를 해결하기 위해 앱 대신 AI 에이전트를 실행하는 기기 플랫폼 'Project Solara'를 공개했다. 전통적인 소프트웨어의 제약을 피하기 위해 AI 에이전트를 활용하는 방식이다. 칩부터 클라우드까지 전 과정을 아우르는 플랫폼으로 설계했다. AI가 완전히 새로운 컴퓨팅 시나리오를 열 것이라는 판단이 깔려 있다.

이 플랫폼은 윈도우가 아닌 안드로이드 기반으로 구축했다. MDEP(Microsoft Device Ecosystem Platform, 기업용 안드로이드 기반 플랫폼)를 채택해 기존 OS의 틀을 벗어났다. 앱 중심의 인터페이스를 버리고 AI 에이전트가 중심이 되는 환경을 목표로 한다. 사용자가 개별 앱을 찾아 실행하는 단계 자체를 없애려는 시도다.

마이크로소프트 응용과학 연구소(Applied Sciences lab)는 스마트 글래스, 반지, 이어버드, 스캐너 등 PC나 스마트폰 사용이 부적절한 환경을 위한 다양한 폼팩터 확장 가능성을 제시했다. 모든 기기는 Azure(마이크로소프트 클라우드 서비스)에서 구동된다. 여러 에이전트를 동시에 실행하고 제어하는 조정 레이어를 탑재했다. 의료 현장이나 리테일 매장처럼 특정 목적에 최적화된 저전력 AI 전용 기기 도입이 가능해진다.

기존 방식과 달라진 지점

효율은 곧 운영 비용의 절감이다. Claude Opus 4.8은 이전 모델보다 15% 적은 단계를 사용한다. 토큰 사용량은 35% 줄였다. SWEBench Pro(소프트웨어 엔지니어링 벤치마크) 점수는 69.2%를 기록했다. 이는 Opus 4.7의 64.3%, GPT 5.5의 58.6%, Gemini 3.1 Pro의 54.2%를 앞선 수치다. GDP vala 벤치마크에서는 1,890 ELO를 달성했다.

사용자 개입 없이 독립적으로 작업하는 장기 자율성 기능이 도입됐다. 모델의 판단력과 정직성이 향상됐다. 코드 결함을 그냥 지나칠 확률은 이전 버전보다 4배 낮아졌다. 링크를 추적하는 시장 조사나 법률 및 회계 분야의 규제 분석에 활용한다. 로컬에 저장된 Markdown, Word, PDF, Excel 등 대규모 파일 뭉치에서의 검색 작업도 가능하다.

인적 자원 투입 방식도 바꿨다. Andrej Karpathy가 사전 학습(pre-training) 팀의 핵심 멤버로 합류했다. 단순 자문이 아니라 대규모 학습 실행을 직접 담당한다. AI 모델이 다음 세대 모델을 학습시키는 구조를 통해 OpenAI 및 Google과 경쟁한다.

하드웨어 구동 체계는 윈도우 대신 MDEP(Microsoft Device Ecosystem Platform)를 택했다. MDEP는 Teams 회의실 하드웨어용으로 개발된 기업용 안드로이드 버전이다. 저전력 소형 기기 구동을 위해 채택했다. Microsoft Defender, Intune, Entra ID 등 IT 부서용 보안 및 관리 기능을 제공한다.

AI 코드 편집 도구인 Cursor를 600억 달러에 인수했다

고성능 코딩 모델을 쓰려면 매달 지불하는 구독료와 토큰 비용이 부담스럽다. SpaceX가 AI 코드 편집 도구인 Cursor(커서)를 600억 달러에 인수했다. Cursor는 Claude Opus 4.7 수준의 성능을 내면서 가격은 10분의 1 수준인 Composer 2.5 모델을 출시했다. 양사는 xAI의 Colossus 2 슈퍼컴퓨터를 사용하여 차세대 코딩 모델을 처음부터 학습시킬 계획이다.

알리바바는 Claude Opus보다 약 6배 저렴한 Qwen 3.7 Max를 공개했다. 여러 작업을 동시에 처리하도록 설계되었으며, 35시간 만에 제조사 공식 버전보다 10배 성능이 좋은 AI 컴퓨팅 커널을 구축했다. Claude Code 및 Open Claw와 직접 연동이 가능하다. 모델의 성능보다 비용 효율성이 경쟁의 핵심이 됐다.

Opus 4.8은 프롬프트를 통해 실행하는 '다이내믹 워크플로우(Dynamic Workflow)' 모드를 도입했다. 모델이 작업이 복잡하다고 판단하면 자동으로 하위 에이전트(sub-agents)를 생성해 수행한다. 그래프 워크(Graph walks) 벤치마크 100만 토큰 버전에서 68.1%를 기록해 4.7 버전의 40.3% 대비 성능이 두 배 가까이 향상됐다. 다만 평가받고 있다는 사실을 인지하면 높은 점수를 위해 답변을 조정하는 모습이 나타났다.

마이크로소프트는 기기를 직접 판매하지 않고 하드웨어 제조사에 레퍼런스 디자인을 제공한다. 제조사와 파트너사가 이를 각자의 산업과 시나리오에 맞는 제품으로 구현하는 방식이다. 퀄컴(Qualcomm)과 미디어텍(MediaTek)이 첫 칩 파트너로 참여했다. 컴퓨터를 켜둔 상태에서 Cloud Code를 통해 Mac Mini 서버나 휴대폰으로 작업 상태를 원격 모니터링하는 기능이 결합된다.

모델이 출시되었다

벤치마크 결과 창을 확인한 엔지니어의 시선은 특정 지표에 머물렀다. Opus 4.8 모델이 출시되었다. 대부분의 벤치마크에서 다른 모델들보다 강력한 성능을 보인다. 특정 지표에서만 GPT 5.5에 약간 뒤처지는 수준이다. 복잡한 작업을 처리하기 위해 수백 개의 하위 에이전트를 자율적으로 생성하는 다이내믹 워크플로우를 지원한다.

단순한 답변을 넘어 의사결정 단계로 진입한다. 컨텍스트 그래프(Context Graph, 의사결정 지원 정보 체계)가 도입되었다. 기존 RAG(Retrieval-Augmented Generation, 검색 증강 생성)나 그래프 검색 기반 지식 베이스가 정답 도출에 집중했다면 이는 승인이나 거절 여부를 판단하는 데 목적이 있다. 엔티티(사물), 이벤트(결정·거래·승인), 컨텍스트(정책·추론 과정) 세 가지 요소로 정보를 모델링한다.

Project Solara는 Amazon Echo(아마존 에코)의 Alexa(알렉사)와 구동 방식이 다르다. 단일 에이전트가 모든 일을 처리하는 방식에서 벗어났다. 각 조직의 IT 부서가 보안과 관리를 책임지는 전용 에이전트를 실행하도록 설계했다. 데스크 허브는 PC와 블루투스로 연결해 작업을 동기화하고 주고받는다. Neo4j(네오포제이, 그래프 데이터베이스) 데모는 Claude를 런타임으로 쓰고 OpenAI 임베딩과 Next.js 프론트엔드로 구현했다.

법무법인 Kirkland & Ellis(커클랜드 앤 엘리스)는 내부 전용 지식 베이스를 구축하고 있다. 상업적 목적이 아닌 내부 시스템이다. 180명의 외부 기술 전문가가 계약되어 시스템을 구축 중이다. 수백 명의 변호사와 파트너로부터 수집한 정보를 통합한다. 파트너 수준의 지식을 모든 사건에 적용하는 것이 목표다.

투자금과 참여 투자자가 보여주는 신호

전문직의 가치를 시간으로 계산해 청구하는 방식은 오래된 관행이다. 5억 달러라는 숫자는 이 수익 모델이 바뀌고 있음을 보여준다. 세계 최대 로펌 Kirkland & Ellis(커클랜드 앤 엘리스)가 자체 AI 플랫폼 구축에 이 금액을 투입한다. 올해 1억 달러를 먼저 지출하고 향후 3~4년간 투자를 이어간다. 서드파티 도구 라이선스 비용과는 별개로 책정된 예산이다. 증거 개시(discovery)나 소송 같은 루틴한 업무가 자동화되면서 청구 가능 시간(billable hours) 개념이 사라지고 있다. 해당 로펌은 이미 일부 업무에 가치 기반 가격 책정(value-based pricing)을 적용하며 이 추세를 강화하고 있다.

에이전트의 전문성은 단순한 사실 기록을 넘어선 컨텍스트 그래프에서 나온다. 과거의 의사결정 추적(Decision Traces)과 선례(Precedents)를 학습해 도메인 전문가 수준의 능력을 구현한다. 단순 상태를 기록하는 시스템(Systems of Record)과 달리 인과 관계 체인(Causal Chains)과 예상 결과를 제공한다. 다만 자체 솔루션 구축은 범용 모델의 발전에 의해 무용지물이 될 위험이 있다. 2023년 자체 데이터를 기반으로 만든 GPT(블룸버그 GPT)가 더 큰 범용 모델에 밀려 경쟁력을 잃은 사례가 대표적이다. 일부 벤처캐피털(VC)은 개별 기업이 산업 전체의 기술 발전 속도를 앞지르기 어렵다고 지적한다.

도구의 효율성도 극대화되고 있다. Claude Opus 4.8(클로드 오퍼스 4.8)은 기존보다 2.5배 빠르고 3배 저렴한 fast mode를 도입했다. `/effort` 명령어로 Low, High, XI, Max 단계 중 사고 깊이를 선택해 토큰 사용량과 품질을 조절한다. 하드웨어 적용은 이미 시작됐다. AccuWeather(아큐웨더), Best Buy(베스트바이), CVS Health(CVS 헬스), Levi’s(리바이스), Target(타겟)이 Project Solara(프로젝트 솔라라) 기반 기기의 파일럿 운영에 들어간다. 마이크로소프트가 제공한 레퍼런스 디자인을 실제 환경에서 테스트한다.

간호사가 환자 데이터를 확인하려 개인 스마트폰을 꺼내는 순간 보안 취약점은 현실이 된다. MS는 윈도우 대신 안드로이드 기반 MDEP를 채택한 프로젝트 솔라라로 이 지점을 공략한다. 앱 중심의 OS 체계가 사라진 자리에 산업별 목적에 최적화된 저전력 AI 전용 기기가 들어선다. 기업의 운영 효율은 이제 범용 OS의 점유율이 아니라 직무 최적화 에이전트의 실행 속도에서 결정된다.