제약사 머크(Merck)가 AI 에이전트 도입 전 기초 인프라를 먼저 구축하는 '배관 우선(Plumbing-first)' 전략을 통해 신약 개발 주기를 33% 단축했다. 보통 기업들이 성능 좋은 모델을 선택하고 정교한 프롬프트를 짜는 일에 집중할 때, 머크는 에이전트가 구동될 데이터 파이프라인과 연결망을 설계하는 데 우선순위를 두었다.
머크의 디지털 플랫폼 부사장 션 피너티(Sean Finnerty)는 개별 에이전트를 하나씩 추가하는 '원오프(One-off)' 방식은 결국 수천 개의 기술 부채로 돌아와 혁신을 가로막는다고 강조한다. 이들은 2010년대 클라우드 도입 초기 단계에서 겪은 시행착오를 바탕으로, 모델보다 데이터의 흐름을 제어하는 환경을 먼저 만들었다. 그 결과 규제 준수가 까다로운 마케팅 자료의 검토 주기를 수개월에서 수일로 줄이며 배포 속도를 최대 80% 끌어올리는 실질적인 성과를 냈다. 단순한 챗봇 도입이 아니라, 수 페타바이트의 데이터를 에이전트가 즉시 활용할 수 있게 만드는 '배관 공사'가 성패를 결정했다는 분석이다.
신약 개발 1년 단축과 마케팅 배포 80% 가속화
규제 준수 여부를 확인하기 위해 마케팅 초안을 수개월 동안 주고받으며 수정하는 과정은 제약 업계의 고질적인 병목 구간이다. 머크(Merck)는 이 검토 주기를 수개월에서 수일 단위로 단축했다. 과거에는 사람이 직접 국가별, 지역별 법규를 대조해 오류를 찾았으며, 조지아주와 캐나다의 백신 광고 캠페인이 서로 다른 규정을 갖듯 세밀한 검토가 필요했다. 작은 실수 하나만 발견되어도 전체 공정이 처음 단계로 되돌아가는 반복 루프가 발생해 수주에서 수개월의 시간이 추가로 소모됐다. 현재는 AI 에이전트가 99%의 정확도로 규제 준수 초안을 생성하며, 이를 통해 마케팅 자료 배포 속도를 최대 80% 끌어올렸다. 실무자의 역할이 직접 초안을 잡는 작업자에서 AI의 결과물을 승인하는 감독자로 전환하며 배포 프로세스의 효율을 높였다.
신약 개발 단계에서 과학자들이 분자 구조와 질병 상태를 분석해 특정 조건이 약물로 치료 가능한지 판단하는 과정은 보통 수년이 걸린다. 머크는 AI를 연구 워크플로우에 통합해 특정 연구 사이클의 기간을 33% 줄였다. 이는 실질적으로 신약 개발 기간을 1년 단축한 것과 같은 효과를 낸다. 질병 상태가 알려져 있더라도 이를 타깃으로 하는 약물을 개발하는 데는 막대한 시간이 소요되는데, AI가 이 탐색 시간을 줄인 것이다. 개발 기간의 단축은 단순히 기업의 비용 절감을 넘어, 치료제가 시급한 환자에게 약물을 1년 더 빠르게 전달할 수 있는 물리적 시간을 확보한다는 점에서 실무적 가치가 크다. 연구자가 데이터 분석에 쏟던 시간을 가설 검증과 전략 수립으로 옮기며 개발 효율을 극대화했다.
레거시 앱을 현대화하기 위해 아키텍처를 발견하고 데이터 상호작용을 문서화하는 작업은 수십만 달러의 비용과 수개월의 시간이 투입되는 고비용 작업이다. 머크는 이 과정을 프롬프트 기반의 에이전트 체제로 전환했다. 에이전트는 API와 네트워크 경로를 분석하고 인증 및 권한 확인 작업을 자동으로 수행하며, 복잡한 시스템 간의 연결 고리를 스스로 찾아낸다. 구체적으로는 Terraform(인프라 코드화 도구) 코드를 직접 작성하거나, 기존의 JavaScript 코드를 Python으로 리팩토링하는 실무 코딩 작업까지 처리한다. 수주에서 수개월이 소요되던 앱 업데이트 작업을 에이전트의 자동화 영역으로 편입시켜 인프라 현대화에 투입되는 리소스를 획기적으로 줄였다.
MCP와 A2A를 지탱하는 '멀티 클라우드 배관' 구조
데이터 하나를 찾으려 AWS 콘솔과 Azure 포털을 오가고, 권한 승인을 기다리며 시간을 버리는 일은 개발 현장의 일상이다. 머크는 2,500개의 AWS 계정과 다수의 Azure 구독, 그리고 GCP(Google Cloud Platform) 통합 환경을 동시에 운영하며 이 문제를 해결했다. 이곳에는 Oracle과 SQL 데이터베이스, 엑셀 시트, 전화 녹취록 등 수 페타바이트 규모의 정형 및 비정형 데이터가 분산 저장되어 있다. 데이터가 흩어져 있으면 에이전트가 정확한 맥락을 잡지 못해 엉뚱한 답을 내놓기에 인프라 통합을 통한 데이터 접근 경로 단일화를 최우선으로 수행했다. 이는 개별 에이전트를 만드는 것보다 데이터가 흐르는 통로를 먼저 뚫는 것이 운영 효율을 결정한다는 판단에 따른 결과다.
데이터 처리에는 Databricks와 Amazon Redshift를 활용하며, 이를 MCP(Model Context Protocol, 모델 컨텍스트 프로토콜)와 A2A(Agent2Agent, 에이전트 간 통신) 체계로 통합했다. MCP는 모델이 외부 데이터에 접근하는 표준 방식을 정의해 데이터 소스가 바뀌어도 모델을 수정할 필요가 없게 만들고, A2A는 서로 다른 역할을 가진 에이전트들이 유기적으로 협업하도록 돕는다. 개발자는 특정 클라우드에 종속되지 않고 필요한 워크로드를 AWS나 GCP 중 최적의 환경에서 선택해 실행한다. 배관 공사를 마친 뒤에야 수천 개의 에이전트를 안전하게 등록하고 보안을 제어하며 적절한 도구와 데이터를 연결하는 운영 체계가 실제로 작동한다.
에이전트가 실제 코드에 존재하지 않는 함수를 테스트하라고 제안하는 식의 환각 현상은 AI-to-AI 상호 감시 체계로 제어한다. Anthropic의 Claude가 생성한 결과물을 Microsoft Copilot이 다시 검토하게 만들고, 이 과정에서 신뢰도 점수(Confidence Score)를 부여해 기준 미달의 응답을 필터링한다. 질문과 검토를 세 번 반복하는 루프를 설계하면 초기 실행에서 발생하는 쓰레기 값(Garbage)이 현저히 줄어들며 정답률이 올라간다. 단순한 프롬프트 수정을 넘어 시스템 수준에서 검증 단계를 강제하고 상호 교차 확인을 수행해 출력물의 신뢰도를 확보했다.
마스터카드는 이 구조를 거래 분쟁 워크플로우 자동화 실험에 적용해 정형 데이터와 비정형 데이터를 혼합 처리한다. 카드 분실 여부 같은 정형 데이터는 명확한 기준에 따라 결정론적으로 판단하고, 신뢰도가 낮은 고객의 불만 내용은 확률론적으로 분석해 결론을 도출한다. 서로 다른 성격의 데이터를 처리하는 에이전트들을 적재적소에 배치해 복잡한 분쟁 처리 프로세스를 자동화하며 비용을 절감한다. 이는 데이터의 성격에 따라 판단 모델을 분리하고 이를 하나의 워크플로우로 묶는 배관 설계가 실제 비즈니스 로직에 어떻게 적용되는지 보여준다.
수천 개의 AI 에이전트를 동시에 구동하는 환경에서 실제 병목은 모델의 추론 성능이 아니라 데이터를 실어 나르는 인프라의 처리 속도에서 발생한다. 머크가 제시한 배관 전략은 개별 에이전트의 지능을 높이는 것보다 이들을 유기적으로 연결하고 제어하는 시스템의 안정성을 확보하는 것이 우선임을 입증한다.
단순한 도구의 도입을 넘어 대규모 운영 체계를 구축하는 과정은 이제 선택이 아닌 필수 생존 전략이 된다. 결국 AI 에이전트의 실질적인 비즈니스 확장성은 모델의 정교함이 아니라 인프라의 처리 용량이 결정한다.




