데이터 쿼리 오류 잡는 Anthropic 내부 엔진 'ktx' 오픈소스 공개

데이터 및 분석 에이전트를 위한 실행 가능한 컨텍스트

에이전트가 엉뚱한 지표를 계산해 오거나 매번 테이블 구조를 다시 파악하느라 토큰을 낭비하는 상황에서 엔지니어는 쿼리 정확도 개선에 매달린다. Anthropic은 이 문제를 해결하기 위해 내부 분석 엔진인 ktx를 오픈소스로 공개했다. ktx는 데이터 및 분석 에이전트가 데이터 웨어하우스에 정확하게 접근할 수 있도록 돕는 실행 가능한 컨텍스트 레이어다. 에이전트가 데이터 구조를 오해해 발생하는 오류를 줄이는 데 집중한다.

이 시스템은 PostgreSQL, Snowflake, BigQuery, ClickHouse, MySQL, SQL Server, SQLite 등 광범위한 데이터베이스 환경에서 작동한다. dbt(데이터 변환 도구), MetricFlow, LookML, Looker, Metabase, Notion과 같은 분석 도구 및 시맨틱 레이어와의 통합 구조를 지원한다. 다양한 데이터 웨어하우스와 외부 분석 툴을 유연하게 연결함으로써 에이전트가 데이터에 접근하고 쿼리를 생성하는 경로를 표준화했다.

ktx는 승인된 메트릭 정의와 조인 가능한 컬럼, 그리고 비즈니스 지식을 스스로 구축하고 유지 관리하는 기능을 수행한다. 에이전트가 데이터 웨어하우스를 정확하게 쿼리하도록 학습시키는 자가 개선형 컨텍스트 레이어 역할을 한다. 이는 운영자가 일일이 정의를 수정하고 관리하던 기존의 수동 시맨틱 레이어 방식과 대조되는 지점이다. 자가 개선형 컨텍스트 레이어를 통해 데이터 에이전트가 스스로 지식을 업데이트하며 쿼리 정확도를 높이는 환경을 구축할 수 있다.

기술이 실제로 작동하는 방식

AI 에이전트에게 데이터 분석을 맡기면 매번 테이블 구조를 다시 파악하거나 임의로 메트릭 로직을 만들어 엉뚱한 수치를 내놓는 경우가 많다. ktx는 범용 에이전트가 질문마다 웨어하우스를 재탐색하며 발생하는 비효율과 승인되지 않은 임의의 지표를 생성하는 문제를 해결한다. 이는 에이전트가 데이터 구조를 매번 새로 학습하는 대신, 기업 내에서 승인된 정의에 맞는 정확한 수치를 도출하도록 제어하여 결과값의 일관성을 확보하는 방식이다.

기존의 시맨틱 레이어(데이터의 의미를 정의한 계층)는 지속적인 수동 유지보수가 필요하며 기업 내부의 방대한 지식을 유연하게 흡수하지 못하는 한계가 있다. ktx는 이러한 관리 부담을 줄이면서 범용 에이전트가 데이터 작업에서 보이는 취약점을 보완한다. 수동 설정에 의존하는 기존 방식과 달리 에이전트가 웨어하우스와 상호작용하는 과정에서 발생하는 로직 오류와 지표 불일치 문제를 직접적으로 해결한다.

실제 구동은 프로젝트 디렉토리 내에서 에이전트에게 질문을 던지는 방식으로 진행된다. ktx는 Claude Code, Codex, Cursor, OpenCode 등 다양한 AI 에이전트와 연동해 사용할 수 있다. 사용자는 본인의 LLM API 키를 입력하거나 Claude Code를 통한 Claude Pro/Max 구독, 또는 로컬 Codex 인증을 통해 ktx를 실행한다. 특정 도구에 종속되지 않고 사용자가 이미 사용 중인 에이전트 환경에 ktx의 데이터 처리 능력을 결합해 쿼리 정확도를 높이는 구조다.

별도의 사용료를 청구하지 않는다

오픈소스 도구를 도입할 때 가장 먼저 계산하게 되는 비용은 라이선스 비용일까, 아니면 운영 과정에서 발생하는 추가 과금일까. ktx는 별도의 사용료를 청구하지 않는다. 사용자가 이미 보유한 LLM(거대언어모델) API 키나 기존 구독 서비스를 통해 작동하는 구조다. ktx 자체에서 발생하는 추가 사용 비용은 없다.

비용 발생 지점은 ktx가 아니라 사용자가 선택한 LLM 제공사로 한정된다. 도구 자체의 이용료를 없애고 기존 API 호출 비용만으로 시스템을 운용할 수 있게 설계했다. 이는 도구 도입에 따른 고정비 지출을 제거하고 변동비 중심의 비용 구조를 유지하게 한다.

소프트웨어 라이선스는 Apache License, Version 2.0(아파치 라이선스 2.0) 하에 제공된다. 해당 라이선스는 소스 코드의 수정과 배포, 상업적 이용을 폭넓게 허용하는 표준이다. 특정 벤더에 종속되지 않고 코드를 직접 제어할 수 있는 환경을 제공한다. 기업이 내부 데이터 환경에 맞춰 도구를 최적화하거나 이를 상용 서비스에 통합하는 과정에서 라이선스 비용에 대한 부담이 없다.

수동 관리 중심의 시맨틱 레이어(데이터의 의미를 정의한 계층)를 구축하는 대신 자가 개선형 컨텍스트 레이어를 통한 데이터 에이전트 구현이 가능해졌다. 추가 과금 없이 오픈소스 라이선스를 활용해 데이터 쿼리 정확도를 높이는 인프라를 구축할 수 있다. 비용 효율성과 라이선스 자유도를 동시에 확보한 구성이다.

에이전트가 테이블 구조 파악에 토큰을 낭비하거나 엉뚱한 지표를 산출하는 오류는 프롬프트 수정만으로 해결할 수 없는 구조적 한계다. ktx는 dbt, Snowflake, BigQuery 등 기존 데이터 웨어하우스 및 시맨틱 레이어와의 통합을 통해 쿼리 정확도를 물리적으로 끌어올린다. 데이터 에이전트의 실효성은 이제 수동 관리 중심의 시맨틱 레이어를 넘어 자가 개선형 컨텍스트 레이어를 얼마나 효율적으로 구현하느냐에 달려 있다.

데이터 쿼리 오류 잡는 Anthropic 내부 엔진 'ktx' 오픈소스 공개

데이터 및 분석 에이전트를 위한 실행 가능한 컨텍스트

기술이 실제로 작동하는 방식

별도의 사용료를 청구하지 않는다

관련 기사