코드 생성 너머 운영 자동화로—Resolve AI, 멀티 에이전트 기반 SRE 지형 변화

2x.

Resolve AI가 새롭게 도입한 멀티 에이전트 조사 시스템이 내부 벤치마크에서 기록한 원인 분석 정확도 향상 수치다. 단일 AI 에이전트가 홀로 장애를 진단하던 기존 방식에서 벗어나, 특화된 에이전트 팀이 병렬적으로 가설을 검증하며 도출한 결과다. 이는 마치 당직 엔지니어 한 명에게 의존하던 체제에서 숙련된 전문가 팀이 동시에 투입되는 구조로 바뀐 것과 같다. 그리고 이번 발표는 AI가 단순히 코드를 생성하는 도구를 넘어, 실제 서비스가 구동되는 프로덕션 운영(Production-operations)의 지형을 근본적으로 바꾸려는 전략적 포석이다. 그동안 AI 코딩 붐으로 소프트웨어 배포 속도는 비약적으로 빨라졌지만, 정작 이를 유지하고 관리하는 운영 영역은 여전히 수동 작업의 늪에 빠져 있었다. Resolve AI는 바로 이 지점, 즉 소프트웨어 생애주기의 마지막 관문인 운영 자동화가 다음 거대 투자처가 될 것이라고 확신하고 있다.

$10억 가치 Resolve AI, 멀티 에이전트 기반 운영 플랫폼 공개

시리즈 A 단계에서 1억 2,500만 달러를 유치하며 기업가치 10억 달러를 인정받았다. Greylock(그레이락, 실리콘밸리 벤처캐피털)과 Lightspeed Venture Partners(라이트스피드 벤처 파트너스, 글로벌 벤처캐피털)가 이번 투자에 참여했다. 시장의 시선은 코드 생성 AI에서 운영 자동화로 옮겨가고 있다. 개발 효율이 급증하며 배포되는 소프트웨어 양은 늘었지만 이를 관리하는 운영 영역은 여전히 수동 작업에 의존하기 때문이다. Resolve AI(리졸브 AI, AI 기반 운영 자동화 플랫폼)는 이 지점을 공략해 소프트웨어 생애주기의 마지막 단계인 운영 영역을 AI 투자 최전선으로 설정했다.

이번 업데이트의 핵심은 멀티 에이전트 조사 시스템(Multi-agent investigation system)의 도입이다. 기존의 단일 AI 에이전트 방식은 장애 발생 시 한 명의 엔지니어가 당직을 서는 구조와 비슷했다. 새로운 시스템은 특화된 에이전트 팀을 동시에 투입한다. 이들은 여러 가설을 병렬로 추적하고 서로의 결론을 독립적으로 검증한다. 각 에이전트는 근거가 되는 모든 증거를 인용해야 하며 동료 에이전트가 이를 다시 검토해 논리적 빈틈을 찾아낸다. 근본 원인부터 증상까지 이어지는 완전한 인과 관계 체인을 구축하는 방식이다. 내부 벤치마크 결과 근본 원인 진단 정확도가 이전 버전 대비 2배 이상 향상되었다.

상시 가동 백그라운드 에이전트(Always-on background agents)는 운영의 패러다임을 사후 대응에서 사전 예방으로 바꾼다. 이 에이전트들은 정해진 일정에 따라 작동하거나 배포, 알람 발생, 풀 리퀘스트(Pull Request, 코드 변경 요청) 병합 같은 이벤트에 즉각 반응한다. 엔지니어가 접속하기 전 이미 우선순위 이슈를 조사하고 배포 상태를 모니터링한다. 설정 드리프트(Configuration Drift, 설정값의 의도치 않은 변경)를 감지하거나 비용 이상 징후를 찾아내는 작업도 수행한다. Coinbase(코인베이스), Salesforce(세일즈포스), DoorDash(도어대시), Zscaler(지스케일러) 같은 대형 고객사들이 겪는 복잡한 장애 사례를 학습해 대응 능력을 높였다. SRE(Site Reliability Engineering, 사이트 신뢰성 공학) 업무의 상당 부분을 자동화해 엔지니어가 기능 개발에 집중할 수 있는 환경을 만든다.

엔지니어와 AI가 실시간으로 협업하는 공유 워크스페이스(Shared workspace)도 함께 공개했다. 장애 대응 중 발생하는 모든 증거를 AI와 사람이 동일한 화면에서 공유하며 분석한다. 조사 내용이 업데이트되면 리포트가 실시간으로 동기화된다. 엔지니어는 주 흐름을 방해하지 않고 별도의 가설을 탐색하거나 소스 쿼리를 즉석에서 수정할 수 있다. 도구를 바꾸지 않고 인터페이스 내에서 바로 복구 조치를 실행하는 구조다. 이는 AI를 단순한 조언자가 아니라 운영 프로세스에 완전히 통합된 팀원으로 배치하려는 포석이다. 도어대시의 경우 근본 원인 파악 시간을 최대 87%까지 단축하는 성과를 냈다.

'상호 검증'과 '불확실성 인정'—환각을 제어하는 레이어드 구조

실시간 장애 대응 상황에서 LLM이 내놓는 그럴듯한 오답은 엔지니어를 잘못된 방향으로 유도해 서비스 다운타임을 늘리는 치명적인 리스크가 된다. Resolve AI는 이를 해결하기 위해 단일 에이전트의 추측에 의존하던 기존 방식을 버리고 레이어드 검증(Layered verification, 계층적 검증) 구조를 도입했다. 특정 가설을 조사하는 에이전트가 결론을 내리면 반드시 그 근거가 되는 모든 증거를 인용해야 한다. 이렇게 제출된 증거는 다른 독립적인 에이전트에게 전달되어 교차 리뷰 과정을 거친다. 피어 에이전트(Peer agents, 동료 에이전트)는 조사 에이전트의 논리 전개 과정에서 빈틈을 찾고 논리적 결함이 발견되면 해당 가설을 즉각 기각한다. 이는 AI 내부에서 자체적인 상호 견제 시스템을 구축해 환각을 원천적으로 차단하려는 설계다.

검증의 밀도를 높이는 핵심 장치는 인과 관계 체인(Causal chains)의 구축이다. 에이전트는 단순히 현상을 요약하는 수준을 넘어 시스템의 루트 원인부터 최종 증상까지 이어지는 전체 경로를 논리적 사슬 형태로 구성해야 한다. 이 체인은 각 단계마다 명확한 데이터 근거가 뒷받침되어야 하며 연결 고리가 하나라도 끊기면 유효한 분석으로 인정되지 않는다. 이러한 엄격한 인과 관계 강제는 내부 벤치마크 기준 루트 원인 분석 정확도를 이전 버전 대비 2배 이상 향상시키는 결과로 이어졌다. 단순한 패턴 매칭이 아니라 논리적 인과성을 증명하는 프로세스를 통해 프로덕션 환경에서 요구되는 높은 신뢰 수준을 확보한 것이다.

마지막 방어선은 정답을 강요하지 않는 교정된 불확실성(Calibrated uncertainty, 모델이 자신의 확신 정도를 실제 정확도와 일치시키는 능력)의 구현이다. Resolve AI는 정답을 출력하기 위한 임계치를 매우 높게 설정해 증거가 불충분한 상황에서 억지로 답을 만들어내는 LLM의 고질적인 습성을 제어했다. 시스템은 충분한 증거를 찾지 못했을 때 정답을 제시하는 대신 모름을 선언한다. 이때 단순히 답변을 거부하는 것이 아니라 현재까지 수집된 증거 목록과 함께 엔지니어가 검토할 수 있는 3~4가지의 가능한 가설 경로를 함께 제시한다. 이는 AI를 모든 문제를 해결하는 블랙박스가 아니라 엔지니어의 의사결정을 지원하는 투명한 분석 도구로 포지셔닝한 전략적 포석이다. 운영 환경에서 확신 없는 정답보다 정직한 불확실성이 리스크 관리 차원에서 훨씬 가치 있다는 판단이 반영된 결과다.

DoorDash MTTR 87% 단축이 시사하는 SRE 자동화의 미래

DoorDash는 루트 원인 분석 시간을 최대 87% 단축했다. MTTR(Mean Time To Recovery, 평균 복구 시간)의 획기적 감소다. 보통 엔지니어가 장애 알람을 받고 노트북을 켜서 시스템에 접속하는 데만 5분에서 10분이 소요된다. Resolve AI의 에이전트는 장애 발생 후 인간 엔지니어가 개입하기 전 5분 이내에 트리아지(Triage, 우선순위 분류)를 완료한다. 이는 기존의 관측성 도구나 데이터 분석 방식으로는 도달할 수 없었던 속도다. 장애 대응의 초기 골든타임을 AI가 완전히 점유하며 복구 시간을 분 단위에서 초 단위의 영역으로 끌어내렸다. 단순한 시간 단축을 넘어 장애 인지부터 분석까지의 프로세스 자체를 재정의한 결과다.

개발 생산성의 폭발이 역설적으로 운영의 병목을 만들었다. AI 기반 코드 생성 도구의 보급으로 엔지니어링 팀이 배포하는 소프트웨어의 양은 지난 2년 사이 급증했다. 그러나 이를 유지하고 디버깅하며 상태를 감사하는 운영 영역은 여전히 인간의 수동 작업에 의존하는 구조다. 배포 속도는 AI로 인해 가속화됐지만 이를 관리하는 운영 체계는 과거의 방식에 머물러 있는 불균형이 발생했다. 소프트웨어 생명주기의 마지막 단계인 운영 효율화가 AI 투자의 다음 전선으로 부상한 이유다. SRE(Site Reliability Engineering, 사이트 신뢰성 공학) 영역의 AI 전환은 이제 단순한 도구 도입을 넘어선 필수적인 생존 전략이 됐다.

엔터프라이즈 시장의 지형 변화는 이미 시작됐다. Coinbase, Salesforce, Zscaler 같은 글로벌 기업들이 Resolve AI의 고객사로 합류하며 운영 자동화의 실효성을 검증하고 있다. 이들이 주목하는 지점은 장애가 터진 후 대응하는 리액티브(Reactive) 방식의 한계다. 복잡도가 극도로 높은 대규모 분산 시스템에서는 인간의 직관만으로 원인을 찾는 데 한계가 명확하다. 상시 가동되는 백그라운드 에이전트가 배포 전후의 변화를 실시간으로 감시하고 설정 드리프트를 사전에 찾아낸다. 운영 패러다임이 사후 대응에서 상시 모니터링과 예방적 관리(Proactive)로 이동하는 전략적 포석이다.

운영 자동화의 완성은 엔지니어의 직무 정의를 근본적으로 바꾼다. 단순 반복적인 장애 분석과 로그 추적에서 벗어나 시스템 설계와 아키텍처 고도화에 집중하는 구조로 변모한다. 이는 인적 리소스 비용을 최적화하는 동시에 서비스 가용성을 극대화하는 직접적인 비즈니스 임팩트로 이어진다. 고도로 자동화된 SRE 체계는 기업의 서비스 안정성을 제품 경쟁력의 핵심 요소로 격상시킨다. Resolve AI가 10억 달러의 기업 가치를 인정받으며 대규모 시리즈 A 투자를 유치한 배경에는 이러한 운영 지형의 근본적 변화와 운영 자동화라는 새로운 프런티어에 대한 시장의 강력한 베팅이 깔려 있다.

코드 생성 너머 운영 자동화로—Resolve AI, 멀티 에이전트 기반 SRE 지형 변화

$10억 가치 Resolve AI, 멀티 에이전트 기반 운영 플랫폼 공개

'상호 검증'과 '불확실성 인정'—환각을 제어하는 레이어드 구조

DoorDash MTTR 87% 단축이 시사하는 SRE 자동화의 미래

관련 기사