PC를 직접 조종하는 AI 에이전트 시대 — 클로드 코드와 퍼플렉시티의 도전

이번 주 자동화 컴퓨팅 시장의 흐름이 급격히 바뀌고 있다. 단순히 명령을 수행하는 수준을 넘어, 복잡한 업무 흐름(workflow)을 스스로 관리하는 자율형 에이전트와 이를 뒷받침할 고성능 로컬 하드웨어가 동시에 쏟아져 나왔기 때문이다. 핵심은 명확하다. 클라우드 의존도를 낮춰 병목 현상을 없애고, 효율성을 극대화하는 것이다.

특히 주목할 점은 이러한 기능들이 데스크톱 환경으로 빠르게 스며들고 있다는 것이다. 이제 사용자는 코드 실행과 관리부터 고화질 장편 영상 제작까지, 까다로운 작업들을 AI에게 완전히 맡길 수 있게 됐다. 여기에 방대한 데이터를 빠르게 처리하는 추론 기술까지 더해지며, 속도와 정확도라는 두 마리 토끼를 모두 잡는 구조적 진화가 일어나고 있다.

이번 리포트에서는 Perplexity Computer와 클로드 코드가 개발 환경을 어떻게 바꾸고 있는지, 그리고 시댄스 3.0과 DGX Spark 같은 신규 하드웨어가 어떤 변화를 가져올지 짚어본다. AI 영상 제작의 진화부터 일상적인 디지털 업무의 효율화까지, 결국 이번 변화의 본질은 '인간의 의도'를 '기계의 실행'으로 옮기는 과정에서 발생하는 간극을 완전히 없애는 데 있다.

01단순 검색을 넘어 업무 전체를 스스로 처리하는 Perplexity Computer

Perplexity Computer가 단순한 정보 검색 도구를 넘어, 복잡한 단계를 스스로 수행하는 자율형 에이전트(autonomous software agents) 플랫폼으로 진화하고 있다. 이제는 정답만 알려주는 수준을 넘어, 터미널에서 직접 코드를 작성하고 실행하며 향후 작업 일정까지 예약한다. UFC 경기 분석 작업의 경우, 웹 검색과 계산을 마친 뒤 특정 시간에 다시 깨어나 최종 정보를 확인하도록 '알람'을 설정하는 식이다. 사용자는 Opus 46, GPT54, Sonnet 46 같은 고성능 모델을 선택해 이 과정을 제어할 수 있다. 전문 개발자의 영역이 일반 사용자에게 열린 셈이다.

이러한 능력은 전문적인 금융 및 기술 모니터링 영역으로 확장된다. 예를 들어 기업 실적 발표 주기 전체를 자동화할 수 있다. 일요일에 주목할 기술주를 검색하고, 컨퍼런스 콜 이후 녹취록을 추출해 분석 보고서를 텔레그램이나 모바일 앱으로 전송하는 식이다. 또한 여러 개의 보조 에이전트를 동시에 투입해 젬마 4와 같은 최신 AI 모델의 성능 시험(benchmark) 데이터를 수집하고, 이를 Quen 36, Miniax, Kimmy K2.5 등 경쟁 모델과 비교한 시각화 차트를 만들어낸다. 데이터 수집을 넘어 프롬프트 하나로 풀스택 웹 애플리케이션을 구축하기도 한다. 특히 미디어 링크를 검색 가능한 수학적 형태인 임베딩(embeddings)으로 변환해 저장하는 데이터베이스를 생성함으로써, 팀원들이 자연어로 지식 베이스를 조회할 수 있게 돕는다. 프롬프트 하나로 앱 구축까지 가능한 시대가 됐다.

Perplexity가 업무 흐름(workflow) 자동화에 집중하는 사이, AI 영상 분야는 통합 제작 방식으로 빠르게 전환 중이다. 바이트댄스의 SeeDrones는 오디오와 비디오를 동시에 생성하는 기술을 적용했다. 영상 제작 후 소리를 입히는 기존 방식보다 비용이 저렴하고 싱크가 정확하다. 시댄스 3.0 모델은 서사 기억 체인(narrative memory chain)을 도입해 긴 영상에서도 캐릭터와 배경이 일관되게 유지되도록 했다. 한편 콰이쇼우(Kuaishou)는 네이티브 4K 해상도로 성능 기준을 높였다. 이처럼 경쟁이 치열해지는 가운데 오픈AI는 오히려 후퇴하는 모양새다. 소라(소라) 앱은 4월 26일에 종료됐으며, API 역시 9월 24일에 서비스가 종료될 예정이다. 그 틈을 타 바이트댄스는 얼굴 인증과 C2PA 워터마크를 도입해 글로벌 출시를 재개했다. 다만 미국 시장은 여전히 제외된 상태다. 오픈AI가 물러난 자리를 바이트댄스가 빠르게 잠식하고 있다.

02클로드 코드 — AI 분신 군단이 투입되어 분석 시간을 며칠에서 몇 분으로 단축

며칠씩 걸리던 복잡한 소프트웨어 분석이 이제 단 몇 분 만에 끝난다. AI 비서 군단을 동시에 투입하는 방식 덕분이다. 클로드 코드와 Ultra Code에 탑재된 '동적 작업 흐름(Dynamic Workflow)'의 핵심이다. AI 한 대가 순차적으로 파일을 하나씩 찾는 대신, 시스템이 관리자가 되어 거대한 프로젝트를 작은 단위로 쪼갠다. 이후 수십, 수백 개의 독립적인 하위 에이전트를 동시에 가동해 병렬로 처리한다. 결과 도출 속도가 압도적으로 빨라진다.

이 모든 조율 과정은 모델이 직접 짠 스크립트를 통해 자동으로 이뤄진다. 사용자가 일일이 AI에게 역할을 부여할 필요가 없다. 특정 문제를 깊게 파고드는 '목표(Goal)' 기능과 달리, 이 방식은 넓게 펼쳐서 처리하는 '수평적' 접근법이다. 정확도를 높이기 위해 별도의 검증 단계도 뒀다. 최종 결과물을 내놓기 전, 다른 에이전트가 하위 에이전트들의 작업물을 다시 한번 점검한다. 작업 범위에 따라 단순한 재사용 프롬프트인 '스킬(Skills)', 협업 중심의 '에이전트 팀(Agent Teams)', 혹은 대규모 병렬 작업 중 하나를 선택해 사용할 수 있다.

대규모 기술 감사에서 효율성이 극대화된다. 실제로 파일 24개, 코드 9,500줄 규모의 Flask 프로젝트를 19개의 하위 에이전트로 분석한 결과, 단 30분 만에 완료됐다. 기존처럼 AI 한 대에 의존해 일일이 명령하고 검토했다면 일주일은 족히 걸렸을 작업이다. 하지만 속도만큼 비용 부담도 크다. 하위 에이전트가 각각 독립된 인스턴스로 작동하므로, 투입되는 에이전트 수에 비례해 AI 처리 비용인 토큰 소모량이 급증하기 때문이다. Ultra Code는 이러한 동적 조율 기능에 초고성능 추론 능력을 결합해, 자원은 많이 쓰지만 매우 복잡한 과제를 해결하는 강력한 도구를 제공한다.

03AI가 코딩 '취향'까지 갖게 된다면?

CommandCode.ai가 AI 코드 생성의 패러다임을 바꾼다. 단순히 흔한 코드를 추천하는 수준을 넘어, 전문가의 '감각(Taste)'을 구현하는 데 집중하고 있다. 핵심은 Ahmad Awais가 개발한 'Taste One' 아키텍처다. 이 시스템은 신경망의 패턴 인식 능력에 Ahmad Awais의 27년 개발 경력과 300개 이상의 오픈소스 저장소에서 추출한 상징적 규칙을 결합했다. 전문가의 선호도를 일종의 '기술'로 내재화한 것이다. 덕분에 공식 문서조차 없는 최신 작업에서도 AI가 가장 흔한 패턴이 아닌, 수준 높은 전문가의 판단을 따르게 된다. 이제 AI는 정답이 아니라 '정석'을 짠다.

특히 AI가 외부 소프트웨어에 명령을 보낼 때 형식을 틀리는 '도구 혼동(tool confusion)' 문제를 해결했다. 예를 들어 DeepSeek V4 Pro는 데이터 형식을 지정하는 Zod 스키마(Zod schema) 오류 메시지를 무시하고 같은 실수를 반복하는 경향이 있다. CommandCode.ai는 이를 잡기 위해 모델의 도구 상호작용을 관리하는 검증 장치(harness) 내에 '복구 로직 계층'을 도입했다. 단순히 에러를 뱉는 게 아니라, 시스템이 입력을 확정적으로 수정하고 모델에게 올바른 형식을 알려주는 '복구 힌트'를 제공하는 방식이다. 수천억 개의 토큰과 16,000가지 변수를 통해 정교화된 이 메커니즘은 DeepSeek, Kimi, MiniMax 같은 오픈 모델의 성능을 비약적으로 끌어올렸다. 불완전했던 모델들이 비로소 실전 투입 가능한 도구가 된 셈이다.

전문성을 향한 집착은 사용자 인터페이스(UI) 디자인에서도 드러난다. AI가 흔히 만드는 뻔하고 의도 없는 대시보드 레이아웃을 막기 위해 '작업 패턴 우선 구성(work pattern first composition)' 프레임워크를 적용했다. 디자이너 인터뷰를 통해 도출한 7가지 핵심 화면 패턴을 모델에 제공해, AI가 단순한 격자 구조가 아니라 레이아웃의 '의도'를 먼저 고민하게 만든다. 여기에 색상 체계를 기존 HSL 방식에서 OKLCH 색 공간으로 강제 전환해 시각적 정확도를 높였다. 이를 통해 AI는 전문 디자이너 수준으로 색상 팔레트와 밝기를 정밀하게 제어할 수 있게 됐다. 자동 생성 결과물과 인간 전문가의 간극이 빠르게 좁혀지고 있다.

04NVIDIA BlueField-4 SDX, AI의 '기억 비용' 4배 폭증 해결

복잡한 자율 업무를 수행하는 AI 에이전트들은 '컨텍스트 오염(context pollution)'이라는 치명적인 효율성 문제에 직면해 있다. Hermes Agent 같은 시스템에서 하나의 대화창에 서로 상관없는 여러 주제를 계속 입력하면, AI는 매번 이전의 모든 기록을 다시 읽어야 한다. 특히 Opus 48 같은 고성능 모델을 쓸 때 운영 비용이 3~4배까지 치솟는 이유다. Hermes에 내장된 150개 이상의 기능(skills)조차 불필요한 데이터를 추가해 매 작업의 비용을 높인다. 결국 AI가 더 정교하게 추론할수록, 메모리를 어떻게 관리하느냐가 성능과 비용의 핵심 병목이 됐다.

NVIDIA는 이 문제를 해결하기 위해 긴 문맥 추론에 최적화된 가속 스토리지 인프라, BlueField-4 SDX를 내놨다. 단순한 데이터 저장소를 넘어 자율 행동이 가능한 AI를 위한 '컨텍스트 메모리'로 저장 장치의 개념을 완전히 바꾼 것이다. 자율형 AI는 짧은 명령어 대신 방대한 기업 데이터와 긴 문서를 끊임없이 읽어야 하므로, 저장소와 처리 장치 사이를 잇는 초고속 통로가 필수적이다. BlueField-4 SDX는 이 가교 역할을 수행하면서 기업 데이터 보안과 정책 관리 기능까지 통합해 안전성을 확보했다.

이런 특수 하드웨어의 빠른 등장은 NVIDIA만이 가진 독보적인 위치 덕분이다. 반도체 업계에서 자체적으로 파운데이션 모델을 개발하는 곳은 NVIDIA가 유일하다. 모델 연구 역량을 직접 보유하고 있기에, AI가 정보를 처리하는 방식의 변화를 업계 표준이 되기 전에 미리 읽어낼 수 있다. 덕분에 하드웨어 로드맵을 미래 요구 사항에 맞춰 빠르게 조정할 수 있었다. BlueField-4 SDX는 단순한 성능 업그레이드가 아니라, 차세대 AI 에이전트의 메모리 이동 경로를 정밀하게 겨냥한 맞춤형 솔루션이다.

05유명한 Copilot, 그보다 앞섰던 GPT-3의 실험

AI가 다음 코드를 예측해 작성하는 기능은 이제 업계 표준이 됐다. 하지만 이 기술은 대형 플랫폼이 상용화하기 훨씬 전부터 이미 존재했다. 많은 이들이 AI 코딩의 시작을 GitHub Copilot으로 기억하지만, 실제로는 초기 생성형 모델을 활용한 개인들의 실험에서 시작됐다. 개발자는 이제 지루한 타이핑에서 벗어나 AI가 제안하는 논리를 검토하는 방식으로 일하는 방식(workflow)을 바꿨다. 개발 속도는 빨라졌고 뇌의 피로도는 줄었다.

2020년 7월, Ahmad는 GPT-3를 활용해 이 비전을 구체화했다. Greg Brockman과 Sam Altman으로부터 기술을 조기에 제공받은 그는 'CLAI'라는 도구를 만들었다. CLAI의 핵심은 코드 자동 완성, 특히 다음 줄에 들어갈 적절한 코드 조각(snippet)을 추천하는 것이었다. 코드 조각이란 특정 기능을 수행하는 작은 단위의 재사용 가능한 코드를 말한다. 개발자가 모든 글자를 일일이 칠 필요 없이 복잡한 로직을 바로 삽입할 수 있게 한 것이다. 대규모 AI 모델이 프로그래밍 언어의 구조를 실시간으로 이해하고 도울 수 있다는 사실이 처음으로 증명된 순간이었다.

주목할 점은 이 시점이 GitHub Copilot이 공식 출시되기 1년 이상 앞섰다는 사실이다. 이는 AI의 실질적인 유용성이 거대 생태계에 통합되기 전, 이미 독립적인 프로젝트들을 통해 검증됐음을 의미한다. Ahmad 같은 초기 사용자들은 GPT-3를 통해 소프트웨어 공학의 미래를 미리 설계한 셈이다. 복잡한 코드의 자동 완성 기능이 가능할 뿐 아니라 매우 효율적이라는 점을 업계의 유명 도구들이 나오기 전에 이미 입증했다. 지금의 AI 보조 개발 시대는 그렇게 시작됐다.

06Hermes Agent Desktop: 복잡한 명령어 대신 클릭으로 끝내는 AI 에이전트 관리

고성능 AI 에이전트를 관리하려면 그동안 개발자들이 쓰는 텍스트 기반 터미널(CLI)을 다뤄야 했다. 하지만 최근 출시된 Hermes Agent Desktop은 이 기술적 장벽을 시각적인 인터페이스로 대체하며 비전문가도 쉽게 사용할 수 있는 환경을 구축했다. 메시징 서비스 설정이나 에이전트 옵션 변경을 위해 일일이 명령어를 입력하던 번거로움이 사라진 것이다. 텔레그램, 시그널, 아이메시지 같은 외부 앱을 전전하며 파편화되어 있던 작업 흐름(workflow)을 하나의 전용 데스크톱 앱으로 통합했다. 진입 장벽이 완전히 무너졌다.

핵심은 여러 개의 AI 페르소나를 유지할 수 있는 프로필 시스템이다. Hermes에서 프로필은 각각 특화된 기술과 기억을 가진 독립적인 에이전트를 의미한다. 'soul.md'라는 파일이 각 에이전트의 정체성을 결정하며, 덕분에 '사서' 에이전트는 '코더'나 '오라클' 에이전트와 전혀 다르게 행동한다. 과거에는 터미널에 명령어를 쳐야만 페르소나를 바꿀 수 있었지만, 이제는 클릭 한 번으로 가능하다. GPTM이나 Quen 같은 다양한 에이전트를 즉시 오가며 효율적으로 멀티태스킹을 수행할 수 있다. AI의 정체성을 쇼핑하듯 고르는 시대다.

대화가 길어지면서 주제가 섞여 비용이 급증하는 '문맥 오염(context pollution)' 문제도 해결했다. 사용자가 직접 그룹 채팅을 만들고 봇을 추가해야 했던 텔레그램과 달리, Hermes Agent Desktop은 매 상호작용마다 새로운 세션을 자동으로 생성한다. AI가 현재 작업에 가장 적합한 정보만 유지하게 만든 것이다. 모델 운용의 유연성도 압도적이다. 개발자의 업데이트를 기다려야 하는 Openclaw 같은 경쟁 제품과 달리, Hermes는 동적 구조를 채택했다. 사용자가 즉시 모델을 교체하거나 사고 설정을 조정할 수 있어, 간단한 작업에는 Haiku 같은 저렴한 모델을 배치해 비용을 최적화할 수 있다. 성능은 유지하고 비용은 깎는 실속형 구조다.

07바이트댄스 시댄스 3.0, 18분 연속 영상으로 'AI 영화' 현실화

바이트댄스가 소리와 영상의 완벽한 동기화를 통해 AI 시네마의 경계를 허물고 있다. 단순히 화질만 좋은 모델은 많지만, SeeDrones 2.0은 오디오가 결합된 영상 제작에서 독보적인 위치를 점했다. 실제 성능 평가 지표인 Artificial Analysis 비디오 아레나에서 텍스트-비디오와 이미지-비디오 부문 모두 1위(Elo 점수 각각 1,214점, 1,194점)를 기록했다. 화질 자체는 Happy Horse가 앞설지 몰라도, 실제 스토리텔링에 필수적인 오디오 통합 능력에서는 SeeDrones 2.0이 압승이다. 화질보다 중요한 건 조화다.

다음 단계인 시댄스 3.0은 짧은 클립을 넘어 장편 서사 콘텐츠를 목표로 한다. 최근 At Moco CN 유출 정보에 따르면, 단 한 번의 명령어로 최대 18분의 일관된 영상을 생성할 수 있다. 이를 위해 바이트댄스는 '서사 기억 체인(narrative memory chains)' 시스템을 도입했다. 몇 초 뒤에 내용을 잊어버리는 기존 AI와 달리, 긴 시간 동안 줄거리와 시각적 논리를 유지하게 하는 기술이다. 여기에 복잡한 장면 전환을 관리하는 '이중 분기 구조(dual branch architecture)' 연구가 더해져 장편 영상의 개연성을 확보했다.

AI 비디오 시장의 판도가 급격히 변하고 있다. 시댄스 3.0이 MMDI TV 2 업그레이드로 품질을 더 높이는 동안, 강력한 경쟁자였던 소라(소라)는 퇴보 중이다. 소라는 4월 26일 앱 서비스를 종료했고, 9월 24일에는 API 서비스마저 종료될 예정이다. 바이트댄스는 영상 길이 확장과 오디오 통합에 집중하며, 과거 사람이 일일이 감독해야 했던 연속 장면 연출이나 캐릭터 일관성 유지 작업을 AI의 영역으로 가져왔다. 이제 AI는 단순한 삽입 영상(B-roll) 수준을 넘어, 실제 영화의 한 장면을 통째로 만들어내는 단계로 진입했다.

08DGX Spark — 구독료 없이 내 책상에서 쓰는 'AI 가전'

이제 강력한 AI를 쓰기 위해 거대한 클라우드 서버에 접속하거나 매달 구독료를 낼 필요가 없다. 이번에 출시된 DGX Spark는 로컬 모델 추론(데이터를 외부로 보내지 않고 내 기기에서 직접 AI를 구동하는 방식) 전용 플러그 앤 플레이 기기로, AI의 실행 환경을 사용자의 책상 위로 완전히 옮겨왔다. 데이터 주권을 완전히 확보하는 것은 물론, 클라우드 특유의 지연 시간과 비용 문제까지 한 번에 해결했다. AI가 '구독하는 서비스'에서 '소유하는 가전'으로 바뀐 셈이다.

핵심은 128GB의 통합 메모리(unified memory)다. 일반 사용자 관점에서 통합 메모리란 연산 장치와 메모리가 밀접하게 결합해 AI가 방대한 데이터에 즉각적으로 접근할 수 있게 만든 구조를 뜻한다. AI가 구동할 수 있는 모델의 크기는 결국 메모리 용량에 의해 결정된다. 128GB라는 넉넉한 용량 덕분에 DGX Spark는 웬만한 고성능 모델을 제약 없이 돌릴 수 있다. 엔지니어가 아니더라도 내 공간에 정교한 AI 모델을 구축할 수 있는 길이 열렸다.

이러한 하드웨어적 유연성 덕분에 Qwen 27B나 최신 Neotron 같은 고성능 모델을 내 컴퓨터에 직접 설치해 쓸 수 있다. 이 모델들을 DGX Spark에서 구동하면, 외부 간섭 없이 24시간 내내 기회를 포착하거나 업무 흐름(workflow)을 관리하는 자율형 에이전트(autonomous agent)로 활용 가능하다. 클라우드에 의존하던 작업을 로컬 기기로 옮기면, AI는 이제 나만 위해 일하는 전담 직원과 다름없다. 창작자와 기업가가 복잡한 서버 인프라 구축 없이도 최첨단 AI를 실무에 즉시 투입할 수 있게 된 것이다.