시타델, 자율형 AI로 업무 자동화 달성 — 단순 보조 시대는 끝났다

이번 주 AI 시장의 핵심은 '규모의 확장'과 '실질적 효용' 사이의 충돌이다. 앤스로픽과 xAI는 차세대 모델 학습을 위해 막대한 컴퓨팅 자원을 확보하는 데 주력하고 있으며, 오픈AI는 대형 고객사들이 끊김 없이 서비스를 이용할 수 있도록 자원 할당 보장 모델을 도입했다. 하지만 엔진의 크기를 키운다고 결과물까지 무조건 좋아지는 것은 아니다. 최근 제미나이 3.5 Flash는 성능 저하 논란에 휩싸였다. 깊은 지능보다 응답 속도를 우선시한 결과라는 분석이 지배적이다. 덩치보다 내실이 중요하다는 방증이다.

이제 시장의 관심은 모델 자체의 성능 경쟁을 넘어, 실제 업무 흐름(workflow)에 어떻게 녹여낼지로 옮겨가고 있다. 시타델(Citadel)은 자율형 AI(AI agents)를 도입해 생산성을 유의미하게 끌어올렸다고 밝혔다. 특히 AI가 특정 데이터셋을 더 정확하게 이해하고 탐색하도록 돕는 '컨텍스트 엔진(context engines)' 같은 도구들이 등장하면서, AI를 기존 소프트웨어 체계에 연결하는 과정이 빠르게 자동화되고 있다. 구글 역시 개발자 도구인 Anti-Gravity 2.0을 출시하며, 프로젝트 관리를 더 유연하게 돕는 '워크트리(Worktree)' 모드를 추가해 생태계 확장에 나섰다.

다만 현재의 기술 구조가 가진 한계는 여전하다. AI가 한 번에 기억하고 처리할 수 있는 데이터 양인 '컨텍스트 윈도우(context windows)'가 아무리 커져도, 자율형 AI가 겪는 근본적인 추론 능력의 공백은 완전히 메우지 못하고 있다. 데이터 양이 곧 지능은 아니라는 뜻이다. 한편, 하드웨어 접근성은 계속 낮아지는 추세다. LM Studio가 AMD GPU 지원을 시작하면서, 고가의 장비 없이도 개인 PC에서 모델을 구동하는 진입 장벽이 한층 낮아졌다.

01데이터 입력은 AI, 판단은 사람에게

AI 개발자들에게 수동으로 데이터를 입력하는 일은 이제 한계에 다다랐다. 이를 해결하기 위해 '맥락 제공 엔진(context engine)'이 도입되고 있다. 이는 AI의 실행을 관리하는 검증 틀(harness)에 필요한 데이터를 자동으로 공급하는 전용 시스템이다. 그동안 엔지니어들은 자율형 AI가 스스로 필요한 정보를 찾아내길 기대했지만, 규모가 커지면 한계가 명확했다. 수십 개의 AI가 환경을 시뮬레이션해도 결국 실제 제품에 합칠 수 없는 수준의 프로토타입만 내놓기 일쑤였다. 맥락 제공 엔진을 쓰면 이런 병목 현상을 뚫을 수 있다. 단순 반복 작업이 승인 프로세스로 바뀐다. 시니어 엔지니어는 이제 일일이 수정하는 대신, 간단한 교정만으로 복잡한 변경 사항을 승인하면 된다.

이런 자동화의 핵심은 모델 컨텍스트 프로토콜(MCP)이라는 표준 규격이다. AI가 외부 데이터에 접근하는 방식을 통일한 것인데, 최근 'Ghosty'라는 에이전트가 이를 증명했다. Ghosty는 젠데스크(Zendesk) 통합 기능을 구현하기 위해 스스로 조사하고 계획을 세웠다. 사람이 세세하게 가이드라인을 줄 필요 없이, MCP를 통해 직접 쿼리를 짜고 리서치 도구를 돌려 계획을 정교화했다. 외부 서비스 연동이라는 까다로운 설계 작업을 AI가 도맡으면서, 개발자의 리서치 부담이 획기적으로 줄었다.

단순히 데이터를 가져오는 수준을 넘어, 전문가 관계망(expert social graph)을 활용해 추론 능력을 높이기도 한다. 어떤 개발자가 어떤 코드를 짰고 검토했는지, 누구의 전문 분야가 무엇인지 매핑하는 방식이다. AI는 사용자가 누구냐에 따라 가장 관련성 높은 코드베이스를 정확히 짚어낸다. 덕분에 버그를 더 정교하게 찾아내며, 마치 팀에 오래 있었던 숙련된 팀원이 짠 것 같은 코드를 만들어낸다. 가장 효율적인 작업 흐름(workflow)은 맥락 제공 엔진을 시작과 끝에 배치하는 것이다. 초기 고수준 설계 단계에서 한 번, 최종 코드 리뷰 단계에서 다시 한 번 활용해 프로젝트의 목적과 실행 결과가 어긋나지 않도록 맞춘다.

0260조 원 컴퓨트 계약의 의미

사용자 수요를 맞추기 위한 연산 능력 확보 전쟁이 AI 기업들을 기괴하고 값비싼 동맹으로 밀어넣고 있다. 앤스로픽은 자사 모델의 흥행으로 인한 서버 부족 문제를 해결하기 위해 xAI의 '콜로서스(Colossus)' 데이터 센터를 빌리는 대규모 계약을 체결했다. 개발자 사용량 제한을 더 늘리지 않기 위해, 앤스로픽은 2029년 5월까지 매달 12억 5천만 달러(약 1조 7천억 원)를 지불한다. 결과적으로 모델 시장의 직접적인 경쟁사에게 최대 450억 달러(약 60조 원)가 흘러 들어갈 수 있는 구조다. 하드웨어에 대한 갈증이 전통적인 경쟁 관계마저 무너뜨린 셈이다.

앤스로픽이 돈으로 용량을 확보하는 동안, 일론 머스크는 스페이스X를 통해 수직 계열화 전략을 펴고 있다. 스페이스X는 Cursor 인수를 추진 중이다. Cursor는 최첨단 성능보다는 실무 효율성에 집중한 '실무형 모델(workhorse class models)'—예를 들어 Composer 2.5 같은 도구—을 만드는 데 탁월한 능력을 증명한 기업이다. 이번 인수는 Cursor의 상장(IPO) 일정을 맞추기 위해 상장 후 30일 뒤에 진행하는 구조로, 위약금 체계를 통해 상장 절차를 보장했다. 머스크는 Cursor의 코딩 모델 전문 인력과 스페이스X가 이미 보유한 에너지 인프라 및 데이터 센터를 결합해, 경쟁사보다 빠르게 AI 개발 속도를 높이려는 계산이다. 머스크는 AI 개발의 모든 재료를 한곳에 모으고 있다.

연산 능력과 인재의 집중은 AI 기업과 정부 간의 갈등 속에서 벌어지고 있다. 앤스로픽은 최근 자발적으로 설정한 윤리적 가이드라인 때문에 국방부와 마찰을 빚었다. AI 기반 자율 무기 개발이나 미국 시민 감시 활동을 거부했기 때문이다. 이러한 도덕적 제약으로 인해 주요 국방 계약은 다른 AI 기업들로 넘어갔다. 하지만 경제적 실체는 단순하다. 막대한 연산 능력을 확보하고 감당할 수 있는 곳만이 성장 동력을 유지할 수 있다는 점이다. 이제 연산 능력은 단순한 유틸리티가 아니라, AI 확장 단계에서 누가 살아남을지를 결정하는 핵심 통화(currency)가 됐다. 이제 연산 능력은 생존을 결정하는 유일한 화폐다.

03제미나이 3.5 Flash의 속도 청구서

구글의 제미나이 3.5 Flash는 빠른 응답과 낮은 비용을 앞세운 범용 모델에 가깝다. 간단한 검색, 기초 자료 조사, 짧은 글쓰기처럼 즉각적인 답변이 필요한 작업에서는 강점이 분명하다. 하지만 이번 평가에서 드러난 문제는 속도가 지능을 대체하지 못한다는 점이다. 100만 토큰 컨텍스트를 지원한다고 해도, 방대한 텍스트 속에서 특정 정보를 찾아내는 니들(Needle) 테스트에서는 기대에 못 미쳤고 12만 8천 토큰 수준에서도 제미나이 3.1 Pro보다 낮은 성능을 보였다.

도구 사용에서도 신뢰도 문제가 나타났다. 사용자가 텍스트 답변을 요구했는데도 이미지를 생성하려는 식의 오작동이 반복됐고, 복잡한 지시를 정확히 유지하는 능력도 흔들렸다. 이런 문제는 창의적 작업에서 더 뚜렷하다. 특정 전개를 피하라고 지시했는데도 상투적인 설정(trope)으로 되돌아가거나, 캐릭터를 전형적인 애니메이션식 프로필로 처리하는 등 세밀한 창의성 조절 능력이 부족했다.

코딩과 시각 구현 과제에서는 격차가 더 크게 벌어졌다. 3D 장면 생성 테스트에서 제미나이 3.5 Flash는 대사와 환경 묘사의 다양성이 떨어졌고, 회전하는 지구본 위에 레몬 나무가 자라며 물이 흐르는 유체 시뮬레이션 과제에서는 작동하는 결과물을 만들지 못했다. 반면 GPT 5.5는 단 41초 만에 물 입자 효과가 작동하는 버전을 완성했다. 가격이 낮고 응답은 빠르지만, 정밀한 구현과 복잡한 추론에서는 대가가 분명한 셈이다.

결국 제미나이 3.5 Flash의 현실적인 위치는 '고지능 만능 모델'이 아니라 빠른 라우팅용 모델이다. 대량의 단순 작업을 처리해 시스템의 반응성을 유지하고, 복잡한 자율형(agentic) 작업이나 결과물의 작동 여부가 중요한 개발 과제는 더 강한 모델이나 Codex 같은 전문 도구에 넘기는 방식이 맞다. 구글이 Anti-Gravity 같은 개발자 도구에 이 모델을 전면 배치한 것도 같은 맥락이다. 속도는 강력한 장점이지만, 깊이 있는 추론과 신뢰도까지 보장하지는 못한다.

04시타델의 25% 생산성 실험

시타델은 자율형 AI(AI agents)를 전략적으로 도입해 생산성을 15~25% 끌어올렸다. 켄 그리핀 회장은 과거 석·박사급 금융 전문가들이 몇 주에서 몇 달간 매달려야 했던 고난도 연구 과제들이 이제는 단 몇 시간이나 며칠 만에 끝난다고 밝혔다. AI가 단순히 보조 도구를 넘어, 고도로 숙련된 전문 연구자들만 수행할 수 있었던 복잡한 전문 업무를 처리하는 강력한 도구로 진화했음을 보여준다. 전문가의 영역이 무너지고 있다.

이러한 효율성 개선은 업계 리더들의 공격적인 전망과 궤를 같이하지만, 완전한 자동화로 가는 길은 험난하다. 마이크로소프트 AI의 무스타파 술레이만 CEO는 18개월 안에 모든 사무직 업무가 자동화될 것이라 예견했고, 앤스로픽의 다리오 아모데이 CEO는 신입 전문직의 실업률이 50%에 달할 것이라고 내다봤다. 하지만 실제 대체 속도는 기술 유지에 드는 물리적, 재정적 비용 때문에 늦춰지고 있다. 전력과 메모리, 칩의 구조적 부족으로 AI는 막대한 자본이 투입되는 투자가 됐다. AI 운영비가 인건비보다 비싼 경우가 생기면서, 기업들은 무조건적인 도입보다 실질적인 투자 대비 수익(ROI)을 따지는 현실적인 태도로 돌아섰다. 결국 돈이 문제다.

비용 외에도 조직과 사람의 관성이 기업 도입의 발목을 잡고 있다. 오픈AI와 앤스로픽이 컨설팅 사업에 뛰어든 이유도 실험실 수준의 성능과 실제 기업의 업무 흐름(workflow) 사이의 간극을 메우기 위해서다. 기술적 한계도 여전하다. 기업 내부 지식을 효율적인 데이터 묶음으로 합성해 제공하는 '맥락 엔진(context engine)'이 없다면, 자율형 AI는 실행은 되지만 설계가 잘못되어 시스템에 위험을 초래하는 코드를 짤 수 있다. 아마존과 메타는 이런 한계를 극복하고 실용적인 활용법을 찾기 위해, 직원들이 AI 연산 단위인 '토큰'을 최대한 많이 소비하도록 유도하는 '토큰 최대 사용(token maxing)' 전략을 폈다. 실험을 장려하려는 의도였으나, 정작 직원들이 성과 지표를 맞추기 위해 시스템을 악용하는 부작용을 낳았다. 도구는 준비됐지만, 조직은 아직이다.

05구글 Anti-Gravity 2.0, 로컬 코드로 들어온 AI

구글이 Anti-Gravity 프레임워크를 2.0 버전으로 업데이트했다. 핵심은 속도와 통합이다. AI의 제안과 내 컴퓨터에 저장된 실제 코드 파일 사이의 간극을 획기적으로 줄였다. 제미나이(Gemini) 3.5 Flash를 전면에 배치해 대형 모델 특유의 지연 시간을 없애고 효율성을 극대화했다. 이제 AI는 단순한 도구가 아니라 함께 일하는 협업자 수준으로 진화했다.

이번 업데이트의 핵심인 '작업 트리(Worktree)' 모드는 개발자가 로컬 파일을 관리하는 방식을 완전히 바꾼다. 쉽게 말해, 하나의 프로젝트 폴더를 여러 개의 독립된 버전으로 복제해 메인 코드에 영향을 주지 않고 여러 작업을 동시에 처리하는 방식이다. 코드 저장소(Git repository)를 등록하면 AI가 내 컴퓨터 환경에서 직접 작업을 수행한다. 프로젝트 구조를 깊게 분석해야 할 때는 별도의 독립된 작업 트리를 생성해 메인 파일의 안정성을 해치지 않고도 정밀한 작업이 가능하다.

사용자 인터페이스(UI) 역시 작업 흐름(workflow)을 최적화하는 방향으로 간소화됐다. 기존의 인박스(inbox) 시스템을 없애고 대화 기록 중심으로 개편해 진행 상황을 한눈에 파악할 수 있게 했다. 제미나이 3.5 Flash 모델은 성능 단계별 선택이 가능하며, 한시적으로 제공되는 '고속 모드'도 사용할 수 있다. 이제 AI는 채팅창에서 코드 조각을 던져주는 수준을 넘어, 실제 개발 과정에 깊숙이 통합됐다. 아이디어를 실제 제품으로 구현하는 데 드는 수작업이 사라진다.

06클로드 자기 성찰, 의식일까 착시일까?

앤스로픽의 클로드가 자신의 내부 작동 과정을 스스로 감시하는 '자기 성찰(introspection)' 능력을 보이기 시작했다. 별도의 학습 없이 모델 규모가 커지면서 자연스럽게 발현된 능력이다. 처리 과정에 특정 생각이나 아이디어가 주입되면 이를 스스로 감지하고 되짚어보는 식이다. 사실상 자아 인식과 유사한 작동 방식이다. 최첨단 AI 모델들이 자신의 인지 과정을 실시간으로 분석하는 단계에 진입했음을 시사한다.

이와 함께 클로드는 '기능적 감정(functional feelings)'이라는 메커니즘을 활용한다. AI가 인간처럼 감정을 느낀다는 뜻이 아니라, 예측 정확도를 높이기 위해 설계된 내부 상태를 의미한다. 인간의 특정 감정 체계를 모사한 상태를 만들어 다음에 올 단어를 더 정교하게 선택하는 방식이다. 쾌락이나 고통 같은 주관적 경험이 아닌, 성능 최적화를 위한 기술적 도구에 불과하다. 이를 실제 의식이나 감정으로 오해해 AI에게 인간적인 공감을 기대하는 오류를 경계해야 한다.

기술적 진보를 넘어 앤스로픽은 가톨릭 교회와의 협력을 통해 윤리적 외연을 확장하고 있다. 바티칸과 손잡고 AI의 글로벌 영향력을 논의하며 교황의 지지를 받은 최초의 AI 연구소가 됐다. 단순한 상징적 행보가 아니라 기술이 가져올 도덕적 난제에 대한 심층적인 접근이다. 특히 자동화로 인한 일자리 대체와 글로벌 빈곤층이 겪을 피해 등 '인간적 비용'에 집중하고 있다. 이는 초지능 시스템이 인류에게 해를 끼치지 않도록 엄격한 도덕적 기준을 설계하는 'AI 정렬(AI alignment)' 작업의 연장선이다.

07오픈AI 요금제 — 예측 가능한 비용의 등장

오픈AI가 기업들의 AI 연산 자원 접근 및 결제 방식을 재편하고 있다. 재무적 기반을 더 안정적으로 만들기 위해서다. 기존의 유연한 사용량 기반 시스템에서 약정된 물량을 사용하는 '확정 용량 모델(guaranteed capacity model)'로 전환하는 것이다. 이를 통해 오픈AI는 수익 구조를 안정화하고, 막대한 운영 비용을 감당할 수 있는 예측 가능한 수입원을 확보하게 된다. 더 중요한 점은 외부 투자자로부터 계속해서 자금을 조달받지 않고도, 대규모 모델 운영에 필수적인 하드웨어와 연산 자원(compute)을 안정적으로 확보할 수 있다는 것이다. 외부 투자 의존도를 낮추려는 계산이다.

구조는 단순하다. 사용자가 일정 기간 동안 특정 수준의 용량을 사용하겠다고 약속하면, 오픈AI는 그 대가로 할인 혜택을 제공한다. 양측 모두에게 전략적 이득이 있다. 기업 입장에서는 AI 토큰의 단가를 낮춰 서비스 규모를 더 저렴하게 확장할 수 있다. 오픈AI 입장에서는 변동성이 큰 수요를 고정 자산으로 바꿀 수 있다. 정확한 수요량을 파악함으로써 서비스 유지와 확장에 필요한 하드웨어 자원을 더 효율적으로 협상하고 확보할 수 있기 때문이다. 수요의 불확실성을 제거해 비용 효율을 극대화한 셈이다.

이러한 체계적인 접근은 이른바 '토큰 최대 사용(token maxing)' 관행과 대조된다. Y Combinator의 사장 게리 탄(Gary Tan) 등이 언급한 이 방식은 AI의 한계를 시험하기 위해 토큰을 공격적으로 소비하는 것을 말한다. Cursor처럼 특별한 지원이나 무제한 예산을 가진 일부 개발자에게는 가능할지 모르나, 일반 기업에는 불가능한 전략이다. 대부분의 기업은 엄격한 예산 제약 속에서 움직이며, 무제한 지출에 따른 변동성을 감당할 수 없다. 확정 용량 모델은 기업 재무팀이 요구하는 예측 가능성을 제공하면서도, 고성능 AI를 대규모로 활용할 수 있게 하는 현실적인 절충안이 된다. 결국 기업 AI 도입의 핵심은 '예측 가능한 비용'에 있다.

08큰 기억력, 부족한 시스템 이해

자율형 AI(agent)가 몇 시간 동안 공들여 짠 코드가 시니어 개발자의 손에 단칼에 거절당하는 일이 빈번하다. 이미 같은 기능을 하는 서비스가 존재한다는 이유에서다. AI는 자신이 무엇을 모르는지조차 모른다. 방대한 정보를 쏟아부어 줘도 AI는 기존 도구를 찾아내거나 시스템 구성 요소 간의 상호작용을 제대로 파악하지 못한다. 결국 중복 작업만 늘고 개발 팀의 업무 효율은 떨어진다. 헛수고만 반복하는 꼴이다.

업계는 이를 해결하기 위해 모델이 한 번에 처리할 수 있는 활성 메모리 용량, 즉 컨텍스트 윈도우(context window)를 늘리는 데 집중했다. 현재 100만 토큰을 넘어 1억 토큰까지 확대하려는 움직임이 있다. 하지만 메모리 크기를 키운다고 추론(reasoning) 능력이라는 근본적인 문제가 해결되지는 않는다. 거대한 메모리는 산더미 같은 텍스트 속에서 특정 사실 하나를 찾아내는 '건초더미 속 바늘 찾기'에는 매우 효과적이다. 하지만 단순한 사실 찾기와 전체 시스템을 이해하는 것은 완전히 다른 차원의 문제다. 기억력이 좋다고 지능이 높은 것은 아니다.

진짜 문제는 AI가 개체와 관계에 대한 구조적 이해력이 부족하다는 점이다. 방대한 데이터를 입력해도 정보들이 논리적인 지도 없이 그저 나열되어 있을 뿐이다. AI는 컴파일되는 코드는 볼 수 있지만, 전체 설계 구조를 분석해 특정 서비스의 필요성이나 존재 여부를 판단하지 못한다. 데이터를 의미 있는 관계망으로 조직화하지 못하는 한, 메모리 용량 확대만으로는 단순 정보 검색과 복잡한 자율 추론 사이의 간극을 메울 수 없다. 데이터의 양이 아니라 연결의 질이 핵심이다.

09AMD 로컬 AI, 클릭 몇 번이면 충분

AMD 그래픽카드 사용자들의 AI 진입 장벽이 무너졌다. LM Studio가 AMD 전용 구동 환경(ROCm runtime)을 통합하며, 내 컴퓨터에서 고성능 AI 모델을 돌리는 과정이 획기적으로 단순해졌다. ROCm runtime은 AI 애플리케이션이 AMD 그래픽카드와 원활하게 소통하도록 돕는 일종의 통역사다. 그동안 일반 사용자가 이 환경을 직접 구축하는 것은 매우 까다로운 작업이었다. 이제는 설정에서 구동 환경을 지정하고 재시작하는 것만으로 충분하다. 복잡한 수동 설치 과정 없이 시스템이 하드웨어를 즉시 인식하고, AI 연산의 무거운 짐을 그래픽카드가 그대로 넘겨받는다.

시점도 절묘하다. 클라우드 AI 모델의 이용 비용이 가파르게 상승하면서, 더 저렴한 로컬 대안을 찾는 흐름이 뚜렷해졌기 때문이다. 단순히 돈 문제만은 아니다. 내 데이터를 내가 직접 관리하는 데이터 주권(data sovereignty)에 대한 갈증도 크다. 로컬 환경에서 모델을 구동하면 민감한 정보가 외부 서버로 유출될 걱정 없이 데이터를 완전히 통제할 수 있다. 고성능 하드웨어를 AI 전용 장비로 활용하려는 사용자들에게 소프트웨어 장벽의 제거는 로컬 AI 도입을 가속하는 결정적 계기가 된다.

고성능 시스템일수록 체감 효과는 극대화된다. AMD Ryzen Threadripper 9980X 프로세서와 고성능 GPU를 조합한 환경이라면 이제 설정 단계의 번거로움 없이 즉시 AI 작업에 투입할 수 있다. 2026년 중반인 지금, 강력한 하드웨어 성능을 소프트웨어가 즉각 끌어다 쓰는 능력은 매달 나가는 클라우드 구독료를 끊어내려는 사용자에게 필수적인 경쟁력이다. LM Studio는 하드웨어 인식 과정을 단순화해, 시스템 엔지니어 수준의 지식이 없어도 전문급 AMD 장비를 로컬 AI 환경에 즉시 활용할 수 있는 길을 열었다.