6억 4,200만 개 기업 데이터의 재설계 — D&B가 정의한 '에이전트용 데이터'의 조건

디자이너 겸 개발자 M씨는 공급망 관리 자동화를 위해 AI 에이전트를 도입했으나, 기업 간 복잡한 지배구조나 실시간 리스크 데이터를 정확히 호출하지 못하는 한계에 부딪혔다. 기존의 상업 데이터베이스는 사람이 쿼리 결과를 기다리고 모호한 매칭을 직접 수정하는 전제로 설계되었기 때문이다. AI 에이전트는 이러한 인간의 인내심이나 직관적 판단 능력을 갖추고 있지 않다. 반면, 에이전트가 요구하는 응답 속도는 서브초(sub-second) 단위로 매우 짧다. 하지만 데이터 규모가 방대해질수록 파편화된 아키텍처는 치명적인 지연 시간을 유발한다. 6억 개가 넘는 기업 레코드를 다루는 환경에서 기존의 SQL 쿼리 방식으로는 이러한 속도를 맞추는 것이 불가능에 가깝다. 주목할 점은 데이터의 성격이다. 기존 시스템은 CEO와 회사의 연결 같은 정적인 관계만 기록했다. 그러나 신용 평가나 리스크 분석을 수행하는 에이전트는 인물 이동에 따른 동적인 관계 변화를 추적해야 한다. 이런 곤란을 겪는 개발자가 늘고 있다.

6억 4,200만 개 기업 레코드와 월 1,000억 건의 품질 검사

D&B(Dun & Bradstreet, 글로벌 기업 데이터 제공사)가 구축한 상업 데이터베이스의 역사는 180년을 넘는다. 현재 이들이 보유한 기업 레코드는 6억 4,200만 개에 달한다. 주목할 점은 데이터의 팽창 속도다. 5년 전 약 3억 개 수준이었던 레코드 수는 이 기간 동안 약 2배 가까이 증가하며 규모를 확장했다. 단순히 양적 팽창에 그치지 않았다. 레코드 하나당 포함된 필드는 11,000개에 이른다. 이는 개별 기업에 대해 극도로 세분화된 속성 값을 보유하고 있음을 의미하며, 데이터의 밀도가 매우 높다는 사실을 방증한다. 이러한 데이터의 깊이는 기업 분석의 정밀도를 결정짓는 핵심 요소로 작용한다.

데이터의 방대함만큼 유지 관리의 부하도 상당하다. D&B는 시스템 내에서 레코드가 이동할 때마다 월 약 1,000억 건의 데이터 품질 검사를 수행한다. 이러한 정밀 검증 체계는 전 세계 약 20만 명의 고객사가 신용 평가와 리스크 관리를 위해 의존하는 핵심 기반이 되었다. 그러나 기존의 상업 그래프(Commercial Graph, 기업 간 관계 및 리스크 프로필을 시각화한 데이터 구조)는 철저히 인간 분석가를 위해 설계되었다. 신용 분석가나 리스크 관리자는 쿼리 결과가 도출될 때까지 기다릴 수 있었고, 모호한 엔티티 매칭 결과가 나오더라도 수동으로 데이터를 대조하며 작업을 완수하는 것이 가능했다. 즉, 데이터의 불완전함을 인간의 인지 능력으로 보완해 온 셈이다.

반면 AI 에이전트는 인간과 같은 인내심이나 직관적 판단 능력을 갖추고 있지 않다. 기존 시스템은 서로 다른 사용 사례와 시장을 위해 구축된 개별 시스템들의 집합이었으며, 이를 커스텀 통합 방식으로 묶어 놓은 파편화된 구조였다. 인간 분석가는 SQL(Structured Query Language, 관계형 데이터베이스 관리 언어) 쿼리나 미리 구축된 인터페이스를 통해 이 파편화를 수동으로 극복했다. 하지만 AI 에이전트에게 이러한 구조는 접근 불가능한 장벽이었다. 특히 에이전트가 요구하는 서브 세컨드(sub-second, 1초 미만) 단위의 지연 시간 내에 응답을 내놓기에는 기존의 파편화된 아키텍처가 치명적인 병목 구간으로 작용했다.

결국 D&B는 인간 중심의 데이터베이스를 AI 에이전트가 즉시 쿼리 가능한 통합 지식 그래프로 전환하는 재설계 작업을 단행했다. 파편화된 데이터베이스를 클라우드 인프라로 마이그레이션하고 하위 스키마를 전면 재설계했다. 이 과정에서 지역별 컴플라이언스 요구사항을 유지하면서도 시장 간 레코드를 표준화하는 데이터 패브릭(Data Fabric, 분산된 데이터를 가상화하여 통합 관리하는 아키텍처) 레이어를 구축했다. 그 결과 6억 4,200만 개 기업과 그들 사이의 수십억 개 관계를 추적하는 단일 지식 그래프가 완성되었다. 이는 단순한 저장소의 통합을 넘어 기계가 즉각적으로 읽고 해석할 수 있는 형태로 데이터의 본질적 구조를 바꾼 작업이다.

정적 연결에서 동적 관계망으로: MCP와 A2A 프로토콜 도입

과거의 상업용 그래프는 CEO와 회사라는 정적인 연결선에 의존했다. 사람이 직접 쿼리 결과를 기다리고 모호한 일치 항목을 수동으로 처리하던 시절에는 이러한 정적 관계만으로 충분했다. 반면 인공지능 에이전트는 수동 검증을 기다릴 수 없으며 인물 이동에 따른 이력 추적과 같은 동적 관계망을 요구한다. D&B는 이를 위해 파편화된 데이터베이스를 클라우드 인프라로 마이그레이션하고 데이터 패브릭(Data Fabric, 데이터 가상화 및 통합 계층)을 구축했다. 이 계층은 시장별 레코드를 정규화하면서 지역별 컴플라이언스 요구사항을 동시에 충족시켜 6억 4,200만 개 기업의 관계를 실시간으로 추적하는 통합 지식 그래프의 기반이 된다.

에이전트가 요구하는 서브초 단위의 지연 시간을 맞추기 위해 기존의 SQL 직접 접근 방식은 폐기되었다. 6억 4,200만 개의 레코드와 레코드당 11,000개의 필드로 구성된 방대한 규모의 데이터를 파편화된 아키텍처에서 SQL로 쿼리하는 것은 물리적으로 불가능하기 때문이다. 대신 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜) 기반의 구조화된 접근 계층을 도입했다. MCP는 데이터를 단순 전달하는 것이 아니라 컨텍스트와 함께 패키징하여 에이전트를 최적의 레코드로 라우팅하는 도구와 스킬셋을 제공한다. 주목할 점은 모든 쿼리 배후에 엔티티 해상도(Entity Resolution, 개체 식별 및 통합) 엔진이 작동한다는 사실이다. 이는 단순한 이름 일치가 아니라 검증된 특정 개체를 식별함으로써 에이전트가 엉뚱한 기업 데이터를 참조하는 오류를 원천적으로 차단한다.

단일 에이전트의 검색 문제를 넘어 다중 에이전트 워크플로우에서의 정체성 유지 문제에 집중했다. 신용 확인, KYC(Know Your Customer, 고객 확인 제도), 제3자 리스크 분석 에이전트가 체인 형태로 연결되어 작동할 때 각 단계에서 서로 다른 레코드를 참조하면 전체 워크플로우가 붕괴된다. 이러한 발산 문제를 해결하기 위해 Google의 A2A(Agent-to-Agent, 에이전트 간 통신) 프로토콜 기반의 비즈니스 검증 에이전트를 제공한다. 이 에이전트는 고객이 어떤 오케스트레이션 도구를 사용하든 상관없이 워크플로우 내의 지속적인 참조점으로 작동하며 동일한 엔티티를 참조하고 있는지 확인하는 디지털 핸드셰이크 역할을 수행한다. 이는 에이전트가 인간의 개입 없이도 데이터의 일관성을 유지하며 비즈니스 검증을 완료할 수 있게 하는 핵심 장치다.

'Know Your Agent(KYA)'와 데이터 계보가 결정하는 에이전트 신뢰도

인증 모델의 설계부터 갈린다. 기존의 인증 방식은 사람을 기준으로 설계되었기에 기계인 에이전트에게 그대로 적용할 수 없다. D&B는 이를 해결하기 위해 KYA(Know Your Agent, 에이전트 신원 확인) 모델을 도입했다. 에이전트가 검증된 IP 주소에 매핑되어야 하며 개별 액세스 키를 등록해야만 인증된 신원으로 처리하는 방식이다. 이는 단순한 API 키 발급을 넘어 에이전트가 어느 기업 소속인지, 어떤 데이터에 접근 권한이 있는지를 명확히 규정하는 절차다.

반면 개별 에이전트의 신원 확인만으로는 멀티 에이전트 워크플로우에서 발생하는 정합성 문제를 해결할 수 없다. 신용 확인 에이전트, KYC(Know Your Customer, 고객 알기 제도) 에이전트, 제3자 리스크 에이전트가 체인 형태로 연결되어 작동할 때 각 단계에서 서로 다른 엔티티를 참조할 위험이 존재한다. 예를 들어 신용 확인 단계에서는 A 기업을 참조했으나 리스크 분석 단계에서 유사한 이름의 B 기업으로 대상이 바뀌더라도 워크플로우는 정상 종료된 것으로 인식될 수 있다. 이를 방지하기 위해 D&B는 디지털 핸드셰이크(Digital Handshake) 방식의 엔티티 일관성 체크를 구현했다. 여러 에이전트가 동일한 기업을 분석하고 있는지 검증 에이전트를 통해 지속적으로 확인하는 과정이다. 이러한 검증 체계는 구글의 A2A(Agent-to-Agent) 프로토콜을 통해 오케스트레이션 도구와 상관없이 작동한다.

주목할 점은 결과값의 신뢰도를 담보하는 데이터 계보(Lineage)의 구현이다. 신용 평가나 공급망 결정과 같은 영역에서 에이전트의 오류는 구체적인 금전적 손실로 이어진다. 단순히 확률적인 답변을 내놓는 모델과 달리 기업용 에이전트는 결정의 근거가 되는 데이터 셋의 정확한 위치를 제시해야 한다. 따라서 에이전트가 생성한 모든 답변은 원천 소스까지 역추적 가능한 경로를 포함해야 한다. D&B는 사용자가 클릭 한 번으로 데이터의 기원을 확인하고 검증할 수 있는 계보 시스템을 구축했다. 이는 사후에 추가하는 가드레일이 아니라 설계 단계부터 내재화된 인프라의 일부다. 데이터의 출처가 명확할 때 비로소 에이전트의 판단에 확신을 가질 수 있기 때문이다.

그러나 이러한 고도화된 에이전트 인프라는 데이터 기초 공사가 완료된 상태에서만 가능하다. 최근 많은 기업의 CDO(Chief Data Officer, 최고 데이터 책임자)와 CIO(Chief Information Officer, 최고 정보 책임자)들이 AI 도입에서 겪는 병목 현상은 데이터의 비표준화와 파편화에 있다. 정규화되지 않은 데이터는 에이전트가 쿼리를 수행할 때 모호한 엔티티 매칭을 유발하며 이는 곧 할루시네이션으로 이어진다. 데이터 정규화와 통합이 선행되지 않은 상태에서는 KYA나 데이터 계보 같은 신뢰 계층을 쌓는 것이 불가능하다. 에이전트용 데이터 인프라의 핵심은 단순한 저장소 확장이 아니라 기계가 읽고 검증할 수 있는 정제된 데이터 구조를 확보하는 일이다.

6억 4,200만 개 기업 데이터의 재설계 — D&B가 정의한 '에이전트용 데이터'의 조건

6억 4,200만 개 기업 레코드와 월 1,000억 건의 품질 검사

정적 연결에서 동적 관계망으로: MCP와 A2A 프로토콜 도입

'Know Your Agent(KYA)'와 데이터 계보가 결정하는 에이전트 신뢰도

관련 기사