장애 대응 10분 단축, Amazon Quick으로 구현하는 자동 트리아지 에이전트

Amazon Quick과 New Relic으로 구축하는 자동 장애 트리아지

장애 발생 시 SRE(사이트 신뢰성 엔지니어)가 겪는 가장 큰 병목은 파편화된 도구들 사이를 오가며 데이터를 수집하고 이를 다시 티켓팅 시스템에 옮겨 적는 반복적인 수동 작업이다. Amazon Quick(기업용 AI 에이전트 구축 플랫폼)은 이러한 비효율을 해결하기 위해 New Relic(클라우드 기반 관측성 플랫폼) MCP 서버 및 Asana(워크 매니지먼트 플랫폼)와 네이티브 통합을 지원하며, 단일 프롬프트만으로 전체 대응 워크플로우를 자동화한다. 엔지니어는 더 이상 여러 창을 전환하며 로그를 복사할 필요 없이, 에이전트에게 상황을 전달하는 것만으로 조사를 시작한다.

[Figure 1]

에이전트는 사용자의 프롬프트를 입력받는 즉시 내부적으로 5개의 New Relic 추론 도구를 순차적으로 호출하여 장애의 근본 원인을 파악한다. 이 과정에서 수집된 데이터는 즉시 RCA(근본 원인 분석) 브리프로 구조화되며, 에이전트는 이 보고서를 바탕으로 Asana에 즉시 추적 가능한 티켓을 생성한다. 조사부터 보고서 작성, 그리고 티켓 생성까지 이어지는 일련의 과정이 단일 워크플로우로 통합됨에 따라, 수동 공수가 제거되고 장애 대응의 일관성이 확보된다.

[Figure 7]

구체적으로 에이전트가 생성하는 RCA 브리프에는 장애 요약, 영향 범위, 발생 트리거, 그리고 New Relic의 상세 지표로 연결되는 증거 링크가 포함된다. 또한 에이전트는 사후 분석을 위해 권장되는 다음 조치 사항까지 함께 제시한다. 이러한 자동화 패턴은 단순히 시간을 단축하는 것을 넘어, 온콜 로테이션을 수행하는 모든 팀원이 동일한 수준의 조사 표준을 유지하게 함으로써 사후 분석의 효율을 극대화한다.

[Figure 8]

5개 추론 도구의 오케스트레이션과 네이티브 액션 커넥터

장애 대응 현장에서 엔지니어는 관측 도구와 티켓팅 시스템 사이를 끊임없이 오가며 데이터를 옮겨 적는 반복 작업에 상당한 시간을 소모한다. Amazon Quick(AWS의 생성형 AI 에이전트 구축 서비스)은 이러한 단절을 해결하기 위해 New Relic(클라우드 기반 관측성 플랫폼)의 5개 추론 도구와 Asana(업무 관리 소프트웨어)를 단일 워크플로우로 묶는 오케스트레이션 구조를 채택한다. 에이전트는 사용자의 프롬프트를 분석하여 필요한 추론 도구를 순차적으로 호출하고, 사전 구축된 커넥터를 통해 외부 서비스와 상호작용하며 데이터를 처리한다.

New Relic과의 통합은 Amazon Quick Integrations 콘솔의 Actions 탭에서 시작된다. 사용자는 해당 탭에서 New Relic 타일을 찾아 추가 버튼을 누르고, [Figure 2]와 같이 설정을 진행한다. 이후 [Figure 3]의 대화창에서 통합 이름을 지정하고 연결 유형을 공용 네트워크로 설정하면 기본 준비가 완료된다. [Figure 4]와 같이 상태가 사용 가능으로 표시되면, 상세 페이지에서 [Figure 5]에 명시된 인증 절차를 거쳐 New Relic 계정을 연결한다. 이 과정에서 에이전트는 New Relic의 MCP(Model Context Protocol) 서버와 통신하며 장애 조사에 필요한 데이터를 확보할 권한을 획득한다.

Asana 커넥터는 보안을 위해 OAuth 2.0 인증 방식을 사용한다. 먼저 Asana 개발자 콘솔에서 OAuth 애플리케이션을 생성하여 클라이언트 ID와 시크릿을 발급받아야 한다. 이를 Amazon Quick의 Integrations 내 Actions 메뉴에 입력하면 연동이 활성화된다. [Figure 6]과 같이 New Relic과 Asana가 모두 등록되면, 에이전트 빌더의 Link existing integration 기능을 통해 두 서비스를 에이전트와 물리적으로 연결한다. 이 설정을 마친 에이전트는 사용자의 단일 프롬프트에 반응하여 New Relic의 5개 추론 도구를 적재적소에 호출하고, 최종적으로 Asana에 작업 티켓을 생성하는 전 과정을 자동화한다.

이러한 구조는 에이전트가 단순히 정보를 조회하는 수준을 넘어, 외부 툴의 API를 제어하여 실질적인 운영 업무를 수행하게 만든다. 엔지니어는 복잡한 수동 조작 없이도 표준화된 RCA(근본 원인 분석) 보고서를 생성하고 즉시 티켓팅까지 완료할 수 있다. 결과적으로 도구 간의 데이터 파편화가 해소되며, 모든 장애 대응 과정이 일관된 포맷으로 기록되어 사후 분석의 효율성이 높아진다.

MTTR 단축과 온콜 로테이션의 표준화 효

어제는 복잡한 수동 작업이었던 장애 조사가 오늘은 에이전트의 기본 루틴으로 자리 잡고 있다. New Relic(클라우드 기반 관측성 플랫폼) 내부 테스트 결과, 에이전트를 도입한 팀은 장애 발생 시 증거 수집 단계에서 소요되는 시간을 유의미하게 단축했다. 기존에는 엔지니어가 여러 모니터링 툴을 오가며 데이터를 취합하고 이를 다시 티켓팅 시스템에 옮겨 적는 과정에서 상당한 병목이 발생했으나, 이제는 단일 워크플로우 내에서 이 모든 작업이 처리된다. 이는 단순한 속도 향상을 넘어 장애 대응의 품질을 일정 수준 이상으로 유지하는 토대가 된다.

모든 조사 결과는 에이전트에 의해 일관된 RCA(근본 원인 분석) 포맷으로 생성된다. 엔지니어 개개인의 숙련도나 작성 습관에 따라 차이가 발생하던 사후 분석 보고서가 표준화된 구조를 갖추게 되면서, 팀 전체의 지식 공유 효율이 비약적으로 상승한다. 특히 교대 근무가 잦은 온콜 로테이션 환경에서 이러한 표준화는 매우 중요하다. 이전 근무자가 남긴 조사 기록을 다음 근무자가 즉시 파악할 수 있어, 장애 대응 과정에서 발생하는 지식 손실 위험을 최소화한다.

[Figure 9]

이러한 변화는 팀 단위의 장애 대응 표준을 수립하는 새로운 기준을 제시한다. 에이전트가 생성한 RCA 브리프와 Asana(협업 및 프로젝트 관리 툴) 티켓은 조사부터 기록까지의 전 과정을 자동화하여, 엔지니어가 수동 작업 대신 문제 해결이라는 본질적인 업무에 집중하도록 돕는다. 결과적으로 온콜 인력은 도구 간의 데이터 동기화라는 부차적인 업무에서 해방되며, 팀 전체는 일관된 조사 기준을 바탕으로 더 견고한 운영 체계를 구축하게 된다. 에이전트 도입은 단순한 자동화를 넘어 장애 대응 프로세스 전체의 예측 가능성을 높이는 전략적 선택이 된다.

한국 엔지니어링 환경을 위한 실무 도입 가이드

국내 SRE 팀이 겪는 가장 큰 비효율은 장애 발생 시 파편화된 도구 사이를 오가며 수동으로 데이터를 복사하고 붙여넣는 과정에서 발생한다. Amazon Quick(기업용 데이터 및 워크플로우를 AI 에이전트로 연결하는 서비스)과 New Relic(클라우드 기반 관측성 플랫폼)의 통합은 이러한 단절을 메우는 핵심 고리다. 실무자는 Amazon Quick의 네이티브 액션 커넥터를 통해 New Relic의 5개 추론 도구를 호출하고, Asana(협업 및 프로젝트 관리 도구)와 연동하여 티켓 생성까지 원스톱으로 처리하는 자동화 파이프라인을 구축할 수 있다. 이는 단순히 시간을 줄이는 것을 넘어, 팀 내 장애 대응의 표준을 정립하고 기술 부채를 체계적으로 관리하는 전략적 수단이 된다.

도입 과정에서 가장 먼저 확인해야 할 것은 권한 설정이다. Amazon Quick Integrations 콘솔의 Actions 탭에서 New Relic 타일을 선택해 연동을 시작하며, Asana의 경우 OAuth 2.0 방식을 사용하여 인증을 완료해야 한다. 구체적인 설정 방법과 연동 시 필요한 상세 파라미터는 Amazon Quick User Guide(https://docs.aws.amazon.com/quick/latest/userguide/)와 New Relic 공식 통합 문서(https://docs.newrelic.com/docs/)를 참조하여 환경별 요구사항을 충족해야 한다. 특히 에이전트 빌더에서 Link existing integration 기능을 통해 두 서비스를 연결하면, 단일 프롬프트만으로 근본 원인 분석(RCA) 보고서 작성과 티켓 발행이 즉시 실행되는 구조가 완성된다.

프로토타입 구축 후 실제 운영 환경으로 이관하기 전에는 반드시 리소스 점검을 수행해야 한다. 테스트 목적으로 생성한 임시 커넥터나 인증 토큰 등 불필요한 리소스를 제거하지 않으면 보안 취약점이 발생하거나 예상치 못한 비용이 발생할 수 있다. 장애 대응 워크플로우를 자동화하는 것은 운영 조직이 고질적으로 겪는 지식 유실을 방지하고, 온콜 로테이션 간의 일관된 대응 품질을 유지하는 데 필수적이다. 이 기술적 전환은 엔지니어가 단순 반복 작업에서 벗어나 더 높은 가치의 문제 해결에 집중할 수 있는 환경을 조성한다.

장애 대응의 본질은 도구 간의 파편화된 데이터를 수집하는 것이 아니라, 에이전트 오케스트레이션을 통해 문제 해결의 맥락을 즉각적으로 연결하는 데 있다. MCP 서버와 네이티브 액션 커넥터를 결합한 이번 구조는 단순한 자동화를 넘어, 장애 발생부터 티켓 생성까지의 전 과정을 하나의 표준화된 파이프라인으로 통합한다.

결국 장애 대응의 실력은 엔지니어가 얼마나 빠르게 로그를 뒤지느냐가 아니라, 얼마나 정교하게 에이전트의 판단 루틴을 설계하여 MTTR을 근본적으로 단축하느냐에 따라 결정된다.