매일 아침 데이터 엔지니어들은 대규모 데이터 레이크(데이터를 가공하지 않은 상태로 저장하는 저장소)에 쌓인 정보를 분석하기 위해 데이터를 웨어하우스로 옮기는 복잡한 파이프라인과 씨름한다. 데이터가 이동하는 동안 발생하는 지연 시간은 실시간 의사결정을 방해하는 가장 큰 병목 구간이다. 최근 Amazon Quick(자연어 대화와 시각화를 지원하는 AI 기반 분석 서비스)이 S3 Tables를 새로운 데이터 소스로 도입하며 이러한 데이터 이동 과정을 생략할 수 있는 경로를 열었다.

S3 Tables 직접 연결과 Apache Iceberg 지원

Amazon Quick은 이제 Apache Iceberg(대규모 데이터셋을 효율적으로 관리하는 오픈 테이블 형식)로 저장된 데이터를 중간 쿼리 계층 없이 직접 조회할 수 있다. 이번 업데이트를 통해 사용자는 Amazon S3 table bucket에 저장된 데이터를 별도의 복사 과정 없이 즉시 시각화하고 분석할 수 있게 되었다. 기존에는 데이터를 분석하기 위해 OLAP(복잡한 분석 쿼리를 빠르게 처리하는 시스템)이나 데이터 웨어하우스로 데이터를 옮겨야 했으나, 이제는 데이터 레이크 자체가 분석의 중심이 된다.

이 기능은 두 가지 모드를 지원한다. 첫째는 Direct Query(데이터를 원본에서 실시간으로 가져오는 방식)이며, 둘째는 SPICE(데이터를 메모리에 올려 빠르게 계산하는 엔진)다. 기업은 데이터의 최신성이 중요한 경우 Direct Query를, 반복적인 대규모 연산이 필요한 경우 SPICE를 선택하여 아키텍처를 구성할 수 있다. 특히 금융권과 같이 실시간 사기 탐지나 승인율 모니터링이 필수적인 환경에서 데이터 파이프라인의 복잡성을 획기적으로 낮출 수 있다.

기존 데이터 웨어하우스 방식과의 차이

예전에는 데이터 레이크에 있는 데이터를 분석하려면 Amazon Athena(서버리스 쿼리 서비스)와 같은 중간 도구를 거치거나, 데이터를 별도의 저장소로 적재하는 ETL(데이터 추출, 변환, 적재) 과정이 필수적이었다. 이 과정에서 발생하는 운영 복잡성과 비용은 기업의 데이터 활용 속도를 늦추는 주된 요인이었다. 이제는 Amazon Quick이 S3 Tables와 직접 통신함으로써 데이터 레이크를 단일 진실 공급원(Single Source of Truth)으로 유지하면서도, AI 기반의 자연어 대화형 분석을 즉각적으로 수행할 수 있다.

실제 구현 과정에서 개발자는 Amazon Quick의 IAM(권한 관리 서비스) 역할을 설정하여 S3 table bucket에 대한 접근 권한을 부여해야 한다. 이후 Amazon Quick 콘솔에서 데이터 소스를 생성하고, S3 Tables를 선택하여 데이터셋을 빌드하면 즉시 자연어 질의가 가능하다. 예를 들어, 지난 한 시간 동안 특정 지역에서 발생한 사기 거래 패턴을 묻는 질문에 대해 시스템은 실시간으로 스트리밍되는 데이터를 바탕으로 답변을 생성한다.

bash

S3 Tables 접근을 위한 IAM 정책 예시

{

"Version": "2012-10-17",

"Statement": [

{

"Effect": "Allow",

"Action": [

"s3tables:ListTableBuckets",

"s3tables:ListTables",

"s3tables:GetTableData"

],

"Resource": "*"

}

]

}

데이터 분석의 미래는 데이터가 머무는 곳에서 즉시 가치를 추출하는 방향으로 이동하고 있다.