AWS, Amazon Quick 통합 관측 솔루션 공개

AWS가 Amazon Quick(생성형 AI 기반 통합 플랫폼)의 운영 데이터를 중앙 집중식으로 관리하고 분석할 수 있는 엔터프라이즈 관측 솔루션을 공개했다. 수백에서 수천 명의 사용자가 엔터프라이즈 AI 플랫폼에 온보딩될 때, 비즈니스 리더와 플랫폼 소유자는 누가 플랫폼을 사용하는지, 사용자가 답변에 만족하는지, 어떤 기능이 가장 높은 참여를 이끌어내는지에 대한 가시성을 확보해야 한다. 하지만 기존에는 이러한 데이터가 여러 AWS 서비스에 분산되어 있어 대규모 분석이 어려웠다는 점이 지적되어 왔다.

이번에 공개된 솔루션은 Amazon CloudWatch vended logs와 AWS CloudTrail 이벤트를 통해 수집되는 Amazon Quick의 운영 데이터를 Amazon Simple Storage Service(Amazon S3) 기반의 보안 데이터 레이크로 통합한다. 이렇게 집계된 데이터는 Amazon Athena를 통해 쿼리할 수 있으며, Amazon QuickSight 대시보드와 Amazon Quick 커스텀 챗 에이전트를 통해 시각화 및 자연어 질의 형태로 제공된다. 이를 통해 조직은 단일 인터페이스(Single pane of glass)에서 채택률 추적, 만족도 측정, 비용 모니터링 및 거버넌스 감사를 수행할 수 있는 체계를 갖추게 된다.

Amazon Quick 관측 솔루션의 6단계 배포 프로세스

개발자가 가장 먼저 수행하는 작업은 GitHub 저장소를 복제하여 프로젝트 환경을 구축하는 일이다.

bash

git clone https://github.com/owner/repo

이후 `bash deploy_cloudwatch.sh` 명령어를 통해 Amazon CloudWatch(클라우드 모니터링 서비스) 인프라를 배포한다. 이 스크립트는 구독 리전을 자동으로 감지하고 AWS KMS(Key Management System, 키 관리 서비스) 키를 생성하며, 채팅과 피드백, 에이전트 사용 시간 및 인덱스 사용량 데이터를 위한 vended logs 전달 설정을 구성한다. 특히 채팅 메시지 내용의 로그 기록 여부를 선택적으로 설정할 수 있어 조직의 데이터 프라이버시 정책에 맞춘 제어가 가능하다는 점이 관찰된다.

인프라 기초가 마련되면 `bash deploy_pipeline.sh`를 실행하여 데이터 파이프라인을 구축한다. 이 단계에서는 Amazon S3(Simple Storage Service, 객체 스토리지 서비스) 기반의 데이터 레이크와 CloudWatch 로그 구독 필터, Amazon Data Firehose(실시간 데이터 스트리밍 서비스), AWS Lambda(서버리스 컴퓨팅 서비스) 함수 및 Amazon EventBridge(이벤트 버스 서비스) 규칙이 한꺼번에 배포된다. 데이터 레이크의 물리적 경로가 설정되면 `bash setup_catalog.sh`를 통해 데이터 카탈로그 설정을 진행한다. 이 스크립트는 AWS Glue(데이터 카탈로그 서비스) 데이터베이스를 생성하고 Amazon Athena(대화형 쿼리 서비스) 테이블과 뷰를 구성하여, S3에 저장된 원시 로그를 쿼리 가능한 형태로 변환하는 과정을 자동화한다.

분석 가능한 데이터 구조가 완성되면 `bash deploy_quicksight.sh` 명령어로 Amazon QuickSight(비즈니스 인텔리전스 서비스) 대시보드를 배포한다. 여기에는 커스텀 테마와 데이터 소스, 일일 새로고침 일정이 포함된 데이터셋, 그리고 관측 지표를 시각화하는 분석 리포트와 대시보드가 포함된다. 마지막으로 `bash create_topic.sh`를 실행하여 QuickSight 토픽을 생성한다. 이 스크립트는 데이터 수집 성공 여부를 검증한 뒤, 사용자 질문을 적절한 데이터셋으로 라우팅하는 커스텀 지침이 포함된 토픽을 생성한다. 최종적으로 Amazon Quick 콘솔에서 커스텀 챗 에이전트를 생성함으로써, 비즈니스 리더가 자연어로 사용량 지표를 묻고 즉각적인 시각적 답변을 얻는 전체 프로세스가 완성된다.

vended logs와 S3 데이터 레이크 기반의 파이프라인 구조

수천 명의 사용자가 엔터프라이즈 AI 플랫폼에 온보딩되는 시점부터 로그 데이터는 더 이상 단순한 텍스트 파일이 아니라 파편화된 관리 대상이 된다. Amazon Quick은 이러한 파편화를 해결하기 위해 CloudWatch vended logs(서비스가 자동으로 제공하는 로그)를 활용하여 채팅 대화, 사용자 피드백, 에이전트 및 리서치 시간 사용량, 인덱스 저장소 사용량 데이터를 생성한다. 여기에 AWS CloudTrail(사용자, 역할, 서비스의 작업 기록을 추적하는 서비스)이 결합되어 누가 어떤 작업을 수행했는지에 대한 거버넌스 기록이 추가된다. 이 단계에서 생성되는 데이터는 각 서비스의 서로 다른 포맷으로 분산되어 있어, 이를 통합하지 않고서는 플랫폼 전체의 사용 패턴이나 만족도를 대규모로 분석하기 어렵다는 한계가 관찰된다.

분산된 데이터를 효율적으로 집계하기 위해 설계된 파이프라인은 CloudWatch Logs에서 시작해 Amazon Data Firehose(실시간 데이터 스트리밍 전송 서비스)를 거쳐 Amazon S3(확장 가능한 객체 스토리지) 기반의 데이터 레이크로 흐르는 구조를 가진다. 단순한 데이터 이동에 그치지 않고 전 과정에서 엄격한 보안 체계가 작동하도록 AWS KMS(암호화 키 생성 및 관리 서비스)의 고객 관리 키를 적용한다. 자동 키 로테이션 기능이 포함된 KMS 키는 CloudWatch 로그 그룹부터 Firehose 전송 스트림, Lambda 함수 환경 변수, 그리고 최종 저장소인 S3 데이터 레이크에 이르기까지 전체 파이프라인에 걸쳐 일관된 암호화 전략을 수행하며 데이터의 기밀성을 유지한다.

S3에 적재된 원시 데이터는 AWS Glue Data Catalog(중앙 집중식 메타데이터 저장소)를 통해 분석 가능한 논리적 구조로 변환된다. Glue가 데이터의 스키마를 정의하고 카탈로그화하면, Amazon Athena(S3 데이터를 표준 SQL로 분석하는 대화형 쿼리 서비스)가 이를 가상 테이블 형태로 인식하여 별도의 데이터 이동 없이 즉각적인 쿼리를 수행할 수 있는 환경이 조성된다. 이렇게 정제된 데이터는 최종적으로 Amazon QuickSight(비즈니스 인텔리전스 시각화 도구) 대시보드로 연결되어 비즈니스 리더가 플랫폼 채택률, 비용, 만족도를 한눈에 파악하는 단일 관제 지점으로 기능한다. 결과적으로 원시 로그가 분석 가능한 비즈니스 지표로 변환되기까지의 전 과정은 수동 개입이 배제된 자동화된 데이터 흐름을 통해 완결되는 구조를 제안한다.

개별 서비스 모니터링 대비 통합 관측 솔루션의 효율성

개발자가 서비스 사용 패턴을 분석하기 위해 여러 AWS 콘솔을 오가며 로그를 수동으로 수집하고 대조하는 작업은 상당한 리소스를 소모한다. Amazon CloudWatch(Amazon CloudWatch, 모니터링 및 관측 서비스)의 로그 그룹과 AWS CloudTrail(AWS CloudTrail, 계정 활동 기록 서비스)의 이벤트 데이터가 서로 다른 저장소에 산재해 있기 때문이다. 이러한 분산 구조에서는 특정 사용자의 여정을 추적하거나 대규모 데이터셋에서 상관관계를 도출할 때 데이터 추출과 전처리 단계에서 많은 시간이 소요되며, 이는 곧 분석 비용의 상승으로 이어진다. 특히 엔터프라이즈 규모로 사용자가 확장될수록 개별 서비스 단위의 모니터링으로는 전체 플랫폼의 건강 상태를 한눈에 파악하기 어렵다는 한계가 관찰된다.

이 문제를 해결하기 위해 제안되는 방식은 모든 운영 데이터를 Amazon S3(Amazon Simple Storage Service, 객체 스토리지 서비스) 기반의 데이터 레이크로 통합하는 것이다. CloudWatch에서 생성되는 vended logs와 CloudTrail의 이벤트가 S3로 집결되면, 분석가는 Amazon Athena(Amazon Athena, 서버리스 대화형 쿼리 서비스)를 통해 분산된 데이터를 단일 쿼리로 조회할 수 있다. 이렇게 정제된 데이터는 Amazon QuickSight(Amazon QuickSight, 비즈니스 인텔리전스 서비스) 대시보드로 연결되어 시각화된다. [Figure 1: Amazon Quick enterprise observability solution architecture] 이러한 통합 관측 체계는 데이터 수집부터 시각화까지의 파이프라인을 단일화함으로써, 개별 서비스 콘솔을 일일이 확인하던 수동 작업의 비효율을 제거하고 단일 뷰를 통한 통합 분석을 가능하게 한다.

운영 관점에서 가장 주목할 변화는 데이터에 접근하는 인터페이스의 전환이다. 기존에는 숙련된 엔지니어가 로그 파일의 텍스트를 직접 분석하거나 복잡한 SQL 쿼리를 작성해야만 유의미한 인사이트를 얻을 수 있었다. 하지만 통합 솔루션에서는 커스텀 챗 에이전트를 통한 자연어 질의 방식이 도입된다. 비즈니스 리더가 지난 30일 동안 가장 많이 사용된 기능이 무엇인지 질문하면, 에이전트가 Athena의 데이터셋을 참조하여 즉각적인 지표와 차트, 실행 가능한 권장 사항을 제공하는 구조다. 이는 기술적 장벽으로 인해 데이터 분석 과정에서 발생하던 병목 현상을 제거하며, 실무자가 쿼리 작성에 쏟던 시간을 실제 서비스 개선을 위한 의사결정에 투입할 수 있게 하는 실무적 가치를 제공한다.

비즈니스 리더를 위한 데이터 기반 의사결정 환경

수백 명에서 수천 명의 사용자가 기업용 AI 플랫폼에 온보딩되는 시점부터 운영자는 데이터 파편화라는 실무적 한계에 직면한다. 기존에는 사용자 만족도나 기능별 사용률을 확인하기 위해 여러 AWS 서비스에 흩어진 로그를 개별적으로 수집하고 분석하는 수동 작업이 반복되었다. 이번 솔루션은 Amazon CloudWatch(클라우드 리소스 모니터링 서비스)의 vended logs와 AWS CloudTrail(사용자 활동 및 API 호출 기록 서비스) 이벤트를 Amazon S3(객체 스토리지 서비스) 기반의 데이터 레이크로 통합하며 이 문제를 해결한다. 이를 통해 챗 상호작용 메트릭, 사용자 피드백, 에이전트 및 리서치 시간 사용량, 인덱스 저장소 사용량과 같은 핵심 지표를 단일 관점에서 실시간으로 관찰하는 환경이 제안된다.

비즈니스 리더가 체감하는 가장 큰 변화는 복잡한 SQL 쿼리 작성이나 대시보드 요청 없이 자연어로 운영 현황을 즉각 파악할 수 있다는 점이다. 예를 들어 "지난 30일 동안 어떤 Amazon Quick 기능이 가장 많이 사용되었는가?"라는 질의를 던지면 시스템은 단순한 텍스트 응답을 넘어 메트릭과 차트, 그리고 실행 가능한 권장 사항이 포함된 시각적 답변을 즉각적으로 제공한다. 단순히 어떤 기능이 많이 쓰였는지를 보여주는 것을 넘어, 사용률이 낮은 기능의 제거나 사용률이 높은 기능의 리소스 증설과 같은 구체적인 운영 가이드를 함께 제시하는 구조다. 이는 데이터 분석가가 대시보드를 제작하고 보고서를 상신하는 기존의 리드 타임을 획기적으로 제거하며, 의사결정권자가 실시간 데이터에 기반해 리소스 할당을 조정하거나 서비스 개선 방향을 설정하는 속도를 높인다. 특히 에이전트 사용 시간과 인덱스 저장소 사용량을 실시간으로 모니터링함으로써 비용 최적화 지점을 정확히 포착할 수 있다는 점이 관찰된다.

운영 효율화는 단순한 사용량 추적을 넘어 거버넌스 체계의 자동화와 보안 강화로 이어진다. AWS CloudTrail 이벤트를 통합 관리함으로써 누가, 언제, 어떤 권한으로 AI 서비스를 이용했는지에 대한 감사 로그를 투명하게 확보하고 관리할 수 있다. 특히 대규모 조직일수록 권한 관리의 복잡성이 증가하는데, 통합된 감사 로그는 이상 징후를 빠르게 탐지하고 대응하는 보안 관제 포인트로 활용될 수 있다. 이는 기업 환경에서 필수적인 컴플라이언스 준수와 보안 감사를 효율화하며, 동시에 불필요한 리소스 낭비를 줄여 AI 서비스의 ROI(투자 대비 효율)를 최적화하는 객관적 근거가 된다. 플랫폼 운영자는 정성적인 사용자 피드백과 정량적인 인프라 비용 데이터를 동일 선상에서 분석하며, 서비스의 확장 가능성과 비즈니스 가치를 동시에 검증하는 데이터 기반의 의사결정 체계를 구축하게 된다.

국내 엔터프라이즈 AI 도입 기업의 거버넌스 및 보안 전략

현업의 보안 담당자가 LLM(거대언어모델) 도입 과정에서 가장 먼저 제기하는 우려는 로그에 남는 대화 내용의 민감도와 개인정보 유출 가능성이다. 도입 초기에는 기능적 구현과 초기 검증 단계에 집중하지만, 수천 명의 사용자가 유입되는 확장 단계에 진입하면 데이터 프라이버시 준수는 단순한 권고를 넘어 법적 생존 문제로 직결된다. Amazon Quick은 chat message content 로깅 여부를 선택적으로 설정할 수 있는 제어 옵션을 제공함으로써 이 문제를 해결한다. 구체적으로 user_message와 system_text_message 같은 필드는 연결된 데이터베이스나 S3 버킷의 민감한 기업 정보가 포함될 가능성이 높기에, 기본적으로 로깅 대상에서 제외된다. 기업은 내부의 데이터 프라이버시 정책과 규제 준수 여부를 검토한 뒤 필요한 경우에만 선택적으로 로깅을 활성화함으로써, 가시성 확보와 보안 유지라는 상충하는 목표 사이의 균형점을 찾을 수 있다.

암호화 전략 또한 단순한 기본 설정을 넘어 고객이 직접 제어권을 갖는 엔터프라이즈급 구조로 설계되어야 한다. 보안 요구사항을 충족하기 위해 고객 관리 KMS(Key Management System, 키 관리 서비스) 키를 도입하고 자동 키 로테이션 기능을 결합한 통합 암호화 전략이 제안된다. 이 전략은 CloudWatch Log Groups부터 Data Firehose 전달 스트림, Lambda 함수 환경 변수, 그리고 최종 목적지인 S3 데이터 레이크에 이르기까지 데이터가 이동하는 전 경로에 일관된 암호화 체계를 적용한다. 이는 데이터 저장 시점뿐만 아니라 전송 과정에서의 보안을 강화하며, 키 관리 권한을 기업이 직접 보유함으로써 외부 서비스 제공자에 의한 데이터 접근 가능성을 원천적으로 차단하는 효과를 가진다. 정기적인 키 교체는 혹시 모를 키 유출 시 피해 범위를 최소화하는 실무적인 방어 기제로 작동하며, 이는 금융이나 공공 분야와 같이 엄격한 보안 표준을 요구하는 국내 산업 환경에서 필수적인 요소로 관찰된다.

운영 가시성의 실질적인 가치는 표준화된 지표를 넘어 조직의 특수성을 반영한 메트릭을 얼마나 정교하게 설계하느냐에 따라 결정된다. 단순히 사용량을 확인하는 수준을 넘어 Athena(아테나, 서버리스 쿼리 서비스) 뷰를 추가함으로써 기업 고유의 비즈니스 로직이 반영된 맞춤형 메트릭을 추출하는 과정이 필요하다. 예를 들어 특정 팀의 업무 자동화 효율을 측정하기 위한 전용 뷰를 생성하거나, 부서별 챗 에이전트의 응답 정확도를 추적하는 맞춤형 에이전트를 구축하여 운영 최적화의 근거로 활용하는 방식이다. 이러한 확장 가능성은 AI 플랫폼이 단순한 채팅 도구를 넘어 기업의 의사결정을 지원하는 거버넌스 체계로 진화하는 경로를 제시한다. 플랫폼 운영자는 이를 통해 어떤 기능이 실제 사용자 참여를 이끌어내는지 데이터로 증명하고, 이를 바탕으로 리소스 배분 전략을 수정할 수 있다. 배포된 인프라 리소스를 효율적으로 정리하고 관리하기 위해 다음과 같은 스크립트를 활용하는 것이 권장된다.