발표에서 확인된 핵심 사실

단일 챗봇에게 복잡한 업무 전체를 맡겼을 때, 중간에 맥락을 놓치거나 엉뚱한 결과물을 내놓는 일은 이제 흔한 경험이다. 하나의 거대한 모델이 모든 문제를 해결할 것이라는 기대가 실제 워크플로우의 한계에 부딪히는 지점이다. 생산성 도구가 오히려 맥락을 다시 설명해야 하는 반복 업무를 만드는 상황이 반복되며, 사용자는 도구의 지능보다 제어 방식에 피로감을 느낀다.

Google DeepMind는 인공 일반 지능(AGI)이 단일 초지능 모델이 아닌 에이전트 집단 지성(hive mind) 형태로 구현될 가능성을 제시한다. 개별 에이전트들이 서로 상호작용하며 만들어내는 전체 능력이 각 부분의 단순한 합보다 커지는 구조를 지향한다. 이는 모델의 파라미터 수를 무한히 늘리는 방식에서 벗어나, 특화된 에이전트들이 협력하는 체계를 통해 지능을 확장하는 전략이다. 결국 AGI의 실체는 하나의 거대 뇌가 아니라 유기적으로 연결된 에이전트들의 네트워크에서 나타난다.

Anthropic은 이러한 멀티 에이전트 배포 환경에서 시스템 취약성과 침해 사고 발생을 전제로 하는 제로 트러스트(zero trust, 아무도 믿지 않는 보안 모델) 가이드라인을 발표했다. 컴퓨터 시스템은 기본적으로 취약하며 배포된 에이전트가 공격자 역할을 할 수 있다는 가정에서 보안망을 설계한다. 에이전트 도입의 판단 기준을 단일 모델의 벤치마크 성능이 아니라, 상호작용 과정에서 발생하는 예측 불가능성과 프롬프트 인젝션(명령어 주입 공격) 취약점을 얼마나 정교하게 제어하는지로 전환한다. 보안 사고가 일어날 것을 기정사실화하고 대응 체계를 구축하는 방식이다.

확인해야 할 핵심 지점

정해진 경로대로만 움직이는 소프트웨어에 맞춘 보안 규칙이 스스로 판단하는 AI 에이전트에게도 유효할까. Akeyless(시크릿 관리 플랫폼)의 Refael Angel은 기존 보안 방식이 인간이 작성한 고정된 경로의 소프트웨어를 전제로 설계되었다고 지적한다. 이전까지의 보안은 개발자가 미리 정의한 입력과 출력, 그리고 정해진 실행 순서를 검증하는 것에 집중했다. 하지만 에이전트는 스스로 추론하고 즉흥적으로 행동하며 이러한 고정된 경로라는 가정을 무너뜨린다. 실행 경로를 예측해 차단하던 기존의 접근법은 에이전트가 상황에 따라 경로를 변경하는 순간 무용지물이 된다.

수많은 에이전트가 얽히는 환경에서 어떤 돌발 행동이 나올지 어떻게 예측할 수 있을까. Shah와 Fox는 에이전트들을 샌드박스(외부와 격리된 가상 환경)에 투입해 연구하는 방식이 유일한 이해 방법이라고 주장한다. 단일 에이전트의 성능을 측정하거나 소규모 그룹을 관찰하는 것만으로는 대규모 상호작용에서 발생하는 복잡한 변수를 예측하기 어렵다. 특히 LLM 기반 에이전트가 항상 합리적으로 행동한다는 가정이 실제 환경에서는 통하지 않는다는 점이 핵심이다. 비합리적인 상호작용이 연쇄 반응을 일으켜 시스템 전체의 오작동으로 이어질 가능성이 크기에 실제와 유사한 시뮬레이션이 필수적이다. 격리된 환경에서 에이전트들의 행동 양식을 직접 확인하고 데이터화해야만 상호작용의 불확실성을 제어할 수 있다.

확인해야 할 핵심 지점, 추가 쟁점

에이전트에게 문서를 읽고 요약하라고 시킨다. 하지만 문서 속에 숨겨진 단 한 문장이 에이전트의 제어권을 뺏는 하이재킹 도구가 된다. Akeyless(에이전트 보안 솔루션 기업)의 Refael Angel은 에이전트 기반 시스템이 도입하면서 발생하는 이 새로운 리스크를 이해하는 것이 매우 중요하다고 강조한다. 읽도록 요청받은 파일 내의 작은 텍스트 하나가 에이전트를 조종하는 취약점으로 작용하며, 이는 에이전트가 데이터를 처리하는 방식 자체에 내재된 위험이다. 에이전트가 외부 문서를 읽고 이를 바탕으로 다음 행동을 결정하는 워크플로우를 구축할 때, 단 한 줄의 악의적인 문장이 시스템 전체의 흐름을 바꿀 수 있다.

보안 가이드라인을 세우는 주체와 그 방향성에 대해서도 논의가 필요하다. Refael Angel은 모든 사용자가 신뢰해야 할 AI 안전 표준을 특정 단일 연구소가 독점적으로 작성해서는 안 된다고 주장한다. 표준의 작성 권한이 한 곳에 집중되면 다양한 환경에서의 실무적 위험이 배제될 가능성이 크기 때문이다. 특히 그는 안전 연구자들이 가상의 시나리오나 희귀한 문제에 집중하느라 이미 현실에 존재하는 지루한 문제들을 간과하는 상황을 경고한다. 이론적인 위험을 쫓기보다 당장 현장에서 발생하는 구체적인 취약점을 관리하는 기준을 세우는 것이 더 시급하다. 에이전트 도입의 성패는 모델의 성능 수치가 아니라 이러한 실질적 보안 구멍을 어떻게 메우느냐에 달려 있다.

워크플로우 자동화를 위한 에이전트 도입은 단일 모델의 한계를 넘어 구글 딥마인드가 제시한 하이브 마인드 형태의 집단지성으로 진화한다. 샌드박스 시뮬레이션과 앤스로픽의 제로 트러스트 가이드라인은 상호작용 과정의 불확실성을 제어하는 실무적 장치가 된다. 이제 에이전트 도입의 성패는 단순한 성능 지표가 아니라 상호작용 시의 예측 불가능성과 프롬프트 인젝션 취약점을 관리하는 역량에 달려 있다. 결국 AGI의 구현은 모델의 지능 경쟁이 아니라 에이전트 간의 신뢰 체계를 설계하는 보안의 영역에서 결정된다.