코딩하는 AI가 업무 흐름을 바꾼다 — 클로드 코드와 로켓의 등장

소프트웨어 개발과 보안의 패러다임이 빠르게 변하고 있다. 이제 AI는 단순한 텍스트 생성을 넘어, 복잡한 단계를 스스로 수행하는 실행 단계로 진입했다. AI가 '말'에서 '행동'으로 옮겨가고 있다.

최근 Rocket과 클로드 코드는 AI 에이전트가 로컬 파일 시스템에 직접 접근해 코딩 작업을 완수하는 방식을 표준화하고 있다. 이제 AI 모델은 단순한 보조 도구가 아니라, 개발 주기 전체에 깊숙이 관여하는 능동적인 참여자로 진화했다.

보안 분야의 도약도 눈에 띈다. 소프트웨어 취약점을 자동으로 찾아내는 전문 시스템 Mythos의 등장은 보안의 패러다임을 사후 분석이라는 수동적 태도에서 선제적 방어라는 능동적 체계로 전환시켰다.

하지만 자동화의 성과 이면에는 지역적·규제적 제약이라는 복잡한 과제가 놓여 있다. 강력한 모델을 어디에, 어떻게 배치할지를 결정하는 규제의 영향력이 커지고 있기 때문이다. 동시에 고성능 오픈소스 모델들이 등장하며 기존 폐쇄형 모델들의 성능 지표(benchmark)를 무색하게 만들고 있으며, Recraft V4.1 같은 전문가급 디자인 도구들이 시장에 진입하고 있다. 실용성과 통제라는 두 마리 토끼를 잡으려는 치열한 경쟁이 벌어지는 중이다.

Microsoft와 Nvidia가 로컬 실행(local execution)에 집중하고, 개발자들이 모델의 행동을 추적하는 내부 모니터링 대시보드를 구축하는 이유도 여기에 있다. 이제 핵심은 단순한 지능의 구현이 아니다. 신뢰성과 안전성을 확보해 실제 업무 흐름(workflow)에 얼마나 자연스럽게 녹여내느냐가 승부처다.

01미국 칩 없이 만든 GLM 5.2, 최상위 AI 독점 체제 붕괴

GLM 5.2의 등장은 AI 권력 지형의 중대한 변화를 예고한다. 미국산 실리콘이나 엔비디아(Nvidia) 하드웨어 스택 없이도 최상위 수준의 지능을 구현할 수 있음을 증명했기 때문이다. 이제 고성능 AI 역량은 더 이상 미국의 소수 폐쇄형 연구소만 가진 특권이 아니다. 특히 MIT 오픈 소스 라이선스로 공개된 '순수 오픈' 모델이라는 점에 주목해야 한다. 누구나 가중치를 다운로드해 자체 하드웨어에서 구동하고, 지역적·기술적 제약 없이 상업적으로 이용할 수 있다. 오픈AI나 앤스로픽이 유지하는 폐쇄적인 접근 방식과는 정반대의 행보다. 이제 최상위 AI는 더 이상 미국 몇몇 연구소의 전유물이 아니다.

실제 성능 면에서 GLM 5.2는 소프트웨어 엔지니어링 분야의 최첨단 폐쇄형 시스템들과 어깨를 나란히 한다. 최신 소프트웨어 엔지니어링 벤치마크에서 이미 GPT 5.5를 앞섰으며, Opus 4.8과는 단 1% 내외의 근소한 차이만 보이고 있다. 클로드가 여전히 많은 영역에서 우위에 있지만, 그 격차는 빠르게 좁혀지는 추세다. 특히 aim 2026 같은 특정 테스트에서는 GLM 5.2가 승리를 거뒀다. 이러한 고성능을 효율적으로 유지하기 위해 이 모델은 최적화된 인덱서(indexer)를 도입해 방대한 컨텍스트 윈도우를 처리한다. AI가 다음 단어를 예측하기 위해 사용하는 텍스트 최소 단위인 '토큰(token)'을 모두 처리하는 대신, 예측에 핵심적인 '의사결정 토큰(decision maker tokens)'만 골라내 처리하는 방식이다. 이는 1948년 클로드 섀넌이 인간에게 다음 글자를 맞히게 하여 영어의 엔트로피를 추정한 방식을 대규모로 확장한 결과다. 효율성이 곧 성능이다.

GLM 5.2는 특히 '장기 과업(long-horizon tasks)' 수행에 최적화되었다. 소프트웨어 기능 전체를 구축하거나, 방대한 코드 속에서 단 하나의 오류를 찾아내는 '건초더미 속 바늘 찾기' 식의 복잡한 다단계 프로젝트를 말한다. 이런 작업 과정에서 발생하는 막대한 데이터를 관리하기 위해, Command Code 도구에는 '압축(compact)' 기능이 탑재됐다. 핵심 사실은 유지하면서 30만~40만 토큰에 달하는 대화 기록을 획기적으로 줄여준다. 또한, 명령어 인터페이스(CLI)인 Command Code CLI를 통해 생성된 코드의 신뢰도를 높였다. 모델이 단순히 기능을 구현하는 데 그치지 않고, 직접 구현 내용을 검증해 버그가 없음을 확인하도록 강제하는 구조다. 짜는 것보다 검증하는 능력이 핵심이다.

02AI 모델 성능 대결 — 내 업무에 최적인 모델을 가려내는 점수판

이제 사용자는 중앙 집중식 추적 시스템을 통해 어떤 AI 모델이 자신의 필요에 가장 적합한지 객관적으로 확인할 수 있다. Odysius는 사용자가 직접 투표한 비교 결과를 바탕으로 승패와 무승부를 기록하는 점수판(scoreboard)을 도입했다. 현재 데이터에 따르면 GPT 5.5가 2승 1무로 앞서고 있으며, 젬마 3와 Quinn 3.5122는 각각 1패를 기록 중이다. 이러한 비교 분석은 내 컴퓨터의 로컬 모델과 외부 API 모델을 함께 사용하는 혼합 작업 흐름(hybrid workflow)을 통해 구현된다. 오픈AI API 키만 입력하면 인터페이스를 벗어나지 않고도 내 컴퓨터에서 돌아가는 모델에서 GPT 5.5 같은 클라우드 기반 모델로 즉시 전환할 수 있다. 내 컴퓨터가 곧 개인용 AI 관제 센터가 되는 셈이다.

이런 성능 비교의 실질적인 차이는 디지털 일러스트에 쓰이는 벡터 그래픽(SVG) 생성 같은 전문 기술 작업에서 가장 뚜렷하게 나타난다. 이 분야에서 로컬 모델과 클라우드 모델의 역량 차이는 매우 크다. Quinn 3.5 모델이 젬마 12b보다 눈에 띄게 개선된 모습을 보이지만, GPT 5.5의 정교한 출력 능력에는 미치지 못한다. HTML 온라인 뷰어로 나란히 비교해 보면 생성된 그래픽의 품질 차이가 극명하다. 상위 모델일수록 시각적 코딩 능력이 압도적으로 강하다.

모델의 정체를 숨긴 블라인드 테스트에서도 사용자는 응답 속도와 깊이만으로 어떤 AI인지 쉽게 구분해 낸다. 젬마 같은 로컬 모델은 사용자 하드웨어에서 직접 정보를 처리하므로 응답 속도가 매우 빠르다는 특징이 있다. 반면 GPT 5.5는 로컬 모델이 따라오기 힘든 상세한 분석 내용을 제공하며 깊이 있는 응답으로 존재감을 드러낸다. 결국 사용자는 로컬 실행의 즉각적인 속도와 거대 클라우드 모델의 포괄적인 분석 깊이 사이에서 전략적인 선택을 하게 된다.

03생각은 로켓이, 코딩은 클로드 코드가? AI가 업무 흐름을 어떻게 바꿀까?

AI 개발의 패러다임이 '전략'과 '실행'이라는 두 층위로 나뉘고 있다. 이러한 변화를 가장 잘 보여주는 사례가 바로 Rocket과 클로드 코드의 역할 분담이다. Rocket은 아이디어를 구체화하고 리서치와 경쟁사 분석을 통해 '무엇을 만들지' 결정하는 생각의 단계(vibe solutioning)를 담당한다. 반면 클로드 코드는 실제 저장소에 코드를 반영하고 구조를 개선하는 실무 작업(vibe coding)에 특화된 엔진이다. 여기서 핵심은 맥락의 누적(context compounding)이다. AI가 이전 단계에서 생성한 데이터를 자동으로 이어받는 방식이다. 예를 들어 랜딩 페이지를 만들 때, 사용자가 일일이 다시 설명할 필요 없이 AI가 이전 리서치 보고서의 헤드라인이나 분석 내용을 스스로 가져와 활용한다. 반복적인 복사-붙여넣기의 시대가 끝난 것이다.

이처럼 복잡한 다단계 작업 흐름(workflow)을 처리하는 능력은 수십 년에 걸친 기초 과학의 결실이다. 현대 컴퓨팅의 추상적 설계도는 1936년 앨런 튜링의 '계산 가능한 수' 연구에서 시작됐다. 이어 1948년 클로드 섀넌은 인간의 통신을 '비트'라는 이진 단위로 정의했다. 섀넌의 '놀라움(surprise)'과 예측 이론은 오늘날 ChatGPT의 핵심인 다음 토큰 예측 메커니즘과 손실 함수(loss function)의 뿌리가 됐다. 이를 현실로 구현하기 위해 레슬리 램포트는 논리 시계와 인과 관계 개념을 개발했다. 덕분에 수천 개의 GPU가 공통 시계 없이도 거대한 AI 학습 과정에서 서로 보조를 맞출 수 있게 됐다.

이론이 실제 실행으로 옮겨지기 위해서는 데이터와 연산 능력의 결합이 필수적이었다. 구글의 PageRank 알고리즘은 인류 역사상 가장 거대한 텍스트 집합을 구축하며 모델 학습의 핵심 재료를 제공했다. 2012년 ImageNet 논문은 대규모 데이터셋과 Nvidia GPU의 강력한 연산력이 만났을 때 비로소 신경망이 제대로 작동한다는 것을 증명했다. 이후 등장한 트랜스포머(Transformer) 구조는 문장의 모든 단어를 동시에 처리함으로써 순차적 기억 상실 문제를 해결했다. 마지막으로 오픈AI는 GPT-3를 통해 지능이 특별한 알고리즘이 아니라 '규모의 경제'에서 나오는 창발적 특성임을 보여줬다. 1,750억 개의 매개변수로 학습시킨 결과다. 이제 AI는 추상적인 프로젝트 전략에서 정밀한 코드 실행까지 막힘없이 연결하는 시대에 진입했다.

04보안 전문가를 제친 AI — 취약점 분석의 판도를 바꾼 Mythos

AI가 단순한 코딩 보조 도구를 넘어, 인간 전문가조차 놓치는 치명적인 보안 결함을 찾아내는 수준으로 진화했다. 최근 보안 연구원 니콜라스 칼리니(Nicholas Carlini)는 앤스로픽의 Mythos 모델을 활용해 Linux 운영체제와 Ghost 웹 퍼블리싱 소프트웨어에서 심각한 취약점을 발견하고 이를 실제로 공략하는 데 성공했다. 해당 시스템에 대한 사전 지식이 없었음에도 AI가 인간 전문가의 능력을 앞선 것이다. 이제 보안 전문가들조차 현재의 AI 모델이 취약점 분석에 더 뛰어나다는 점을 인정하고 있다. 공격자와 방어자 사이의 균형추가 완전히 기울었다.

하지만 이러한 강력한 성능은 규제 당국의 압박을 불러왔다. 앤스로픽이 외국인의 접근 제한 규정을 준수하지 않자, 미국 상무부는 Mythos와 Fable 모델의 가동 중단을 명령했다. 핵심 쟁점은 모델의 안전 필터를 우회하는 '탈옥(jailbreak)' 기법이다. 레터 시큐리티(Letter Security)의 케이티 무수레스(Katie Mousures)는 Fable이 보안상 위험한 코드를 검토해달라는 요청은 거절하면서도, 정작 버그를 수정하는 패치 코드를 짜달라는 요청에는 응하는 모순적인 모습을 보였다고 지적했다. 이는 GPT55와 Opus 48에서도 동일하게 나타나는 현상이다. 규제 당국은 이를 심각한 리스크로 보지만, 전 오픈AI 이사인 헬렌 토너(Helen Toner)는 탈옥 문제를 완벽히 해결하는 것은 불가능에 가까운 영역이라고 주장한다.

보안 커뮤니티에서는 이러한 도구들의 퇴출에 강하게 반발하고 있다. 100명 이상의 전문가들이 공개 서한을 통해 Mythos 같은 도구를 방어 체계에서 제외하는 것이 오히려 전 세계적인 보안 취약성을 높이는 결과를 초래할 것이라고 경고했다. 한편, 기업들은 자율형 AI(autonomous AI) 운영에 드는

05단순한 코딩 툴에서 AI 제조사로 — Cursor의 체급 변화

Cursor가 단순한 코딩 도구를 넘어 범용 인공지능(General Intelligence) 개발사로 진화하고 있다. 그동안은 개발자가 소프트웨어를 짤 때 쓰는 인터페이스와 도구에 집중했지만, 이제는 그 밑바탕이 되는 지능 자체를 직접 만들겠다는 전략이다. 단순히 프로그래밍을 돕는 수준을 넘어, 다양한 분야의 복잡한 과제를 수행할 수 있는 범용 지능을 구현해 코딩 전용 도구라는 한계를 깨려는 시도다. 이제는 도구가 아니라 지능을 판다.

이는 기존 방식과는 완전히 궤를 달리하는 변화다. 그동안 Cursor는 Composer라는 브랜드로 모델들을 내놓았다. 최신 버전인 Composer 2.5는 클로드 Opus나 GPT55 같은 최상위 모델과 비슷한 성능을 내면서도 비용은 10분의 1 수준으로 낮춰 효율성을 극대화했다. 하지만 이는 Kimmy 기반 모델 위에 특화된 층을 쌓은 사후 학습(post-training) 결과물이었다. 즉, 기존 기초 공사 위에 인테리어만 새로 한 셈이다. 이번 compile 이벤트에서 공개된 새 모델은 이 Kimmy 기반을 완전히 걷어냈다. 기존 시스템을 다듬는 대신, 막대한 연산 자원을 투입해 바닥부터 기초 모델을 직접 쌓아 올리는 정공법을 택했다. 껍데기가 아닌 뿌리부터 다시 짠다.

야심의 크기는 투입되는 자원에서 드러난다. 새 모델에 들어가는 연산 자원은 기존 Composer 모델보다 10배에서 20배 더 많을 전망이다. 클로드 Opus나 GPT55 수준의 규모를 갖추겠다는 것은 더 이상 남이 만든 AI에 편리한 인터페이스만 씌우는 '검증 장치 경쟁(harness game)'에 머물지 않겠다는 선언이다. 이제는 AI의 핵심인 지능 자체를 소유하는 '모델 경쟁(model game)'에 뛰어든 것이다. 사용자 입장에서는 단순히 함수 하나를 짜주는 도구가 아니라, 프로젝트 전체의 논리와 맥락을 세계 최고 수준의 범용 AI처럼 깊이 있게 이해하는 도구를 갖게 된다. 인터페이스 경쟁의 시대는 끝났다.

06오픈AI GPT 5.6: 정부 규제라는 족쇄, 미국 전용 모델이 될 위험

오픈AI가 GPT 5.6 출시를 준비 중이지만, 이번에는 정부가 강제하는 새로운 규제 체계 아래 놓이게 됐다. 누가 어디서 이 도구를 쓸 수 있을지가 엄격히 제한될 가능성이 크다. 정부가 고성능 모델이 대중에 공개되기 전부터 직접 제약 조치를 취하는 것은 이번이 처음이다. 이는 과거 Anthropic이 Fable 5 모델을 출시 직후 강제로 중단해야 했던 사태의 재발을 막기 위한 전략적 조율이다. 오픈AI는 정부와 미리 합의된 제한 사항을 설정함으로써, Fable 5 수준의 성능을 구현하면서도 시장에서 갑자기 퇴출당하는 리스크를 없애겠다는 계산이다.

규제의 핵심은 엄격한 지리적 경계가 될 가능성이 높다. 미국 정부가 외국 세력의 첨단 AI 접근을 차단하려 하기 때문에, GPT 5.6은 미국 외 지역 사용자에게 제공되지 않을 확률이 상당하다. 오픈AI는 규제 준수를 위해 이러한 제한 사항을 모델 출시 프레임워크(release framework)에 직접 심고 있는 것으로 알려졌다. 글로벌 확장성은 줄어들겠지만, Anthropic이 겪은 시행착오보다는 훨씬 안전한 배포 경로다. 다만 GPT 5.6은 Fable 5처럼 한계를 돌파하는 혁신적 모델이라기보다, GPT 5.5의 추론과 코딩 성능을 개선한 점진적 업데이트 버전이다.

출시 시점을 두고 기대감이 고조된 이유는 Codex 팀이 매주 목요일마다 새로운 업데이트를 제공하겠다고 약속했기 때문이다. 일정대로라면 이번 주 출시를 예상하는 시각이 많았으나, 최근 AI 산업 전반의 성장 속도가 둔화하고 있다는 점을 고려해 기대치를 낮출 필요가 있다. 현재 AI 시장은 빠른 업데이트 욕구와 정부의 감시라는 두 가치 사이에서 팽팽한 긴장 상태에 놓여 있다. 오픈AI의 우선순위는 이제 단순한 '속도'가 아니라, 국가 안보 이익과 규제 승인에 맞춘 '안전한 배포'로 옮겨갔다.

07빌려 쓰는 AI에서 소유하는 AI로 — Microsoft와 Nvidia의 로컬 실행 전략

AI가 원격 서버를 떠나 우리가 가진 기기 속으로 들어오고 있다. 지금까지 AI를 사용한다는 것은 클라우드 기반 API(사용자 앱과 원격 컴퓨터를 잇는 디지털 다리)에 요청을 보내고 그 대가를 지불하는 방식이었다. 하지만 기기 자체 처리(local execution) 방식으로 전환되면 데이터 연산이라는 무거운 작업이 사용자 하드웨어에서 직접 이뤄진다. 인터넷 연결이 필요 없고, 매달 내던 서비스 이용료도 사라진다. 비용과 연결의 제약이 사라지는 지점이다.

이를 위해 Microsoft와 Nvidia는 최근 DGX 컴퓨터를 선보였다. 고성능 AI 모델이 요구하는 막대한 연산량을 기기 내부에서 감당하도록 설계된 장비다. 이제 외부 클라우드 플랫폼에 의존하지 않고도 정교한 모델을 돌릴 수 있다. API 호출 비용이라는 운영 지출을 없애고, 오프라인 상태에서도 AI 도구를 그대로 쓸 수 있다는 점이 핵심이다. 이제 AI는 구독 서비스가 아니라 내 소유의 장비가 된다.

이런 흐름은 디지털 자립에 대한 갈망을 반영한다. 오픈AI나 제미나이 같은 클라우드 기반 생성 AI에 만족하는 이들도 많지만, 빅테크 생태계에서 벗어나려는 움직임도 거세다. Odysius 같은 도구가 대표적이다. 구글 캘린더, 구글 포토, 클라우드 메모 앱 같은 거대 서비스 대신 로컬 갤러리와 독립 소프트웨어를 선택하는 이들을 위한 길을 제시한다. DGX 같은 고성능 하드웨어와 프라이버시 중심의 소프트웨어가 결합하면서, AI는 '빌려 쓰는 서비스'가 아닌 '개인용 유틸리티'로 진화하고 있다. 빅테크의 통제에서 벗어난 진정한 디지털 독립이다.

08AI 도구 선택 — '조각 맞추기'식 업무의 종말

AI 업무 흐름이 삐걱거리는 결정적인 이유는 정보의 파편화다. 리서치는 A 앱에서, 메모는 B 앱에서, 코딩은 C 앱에서 수행하면 핵심 맥락이 사라진다. 결국 사람은 실제 업무보다 흩어진 정보를 잇는 '조각 맞추기'에 더 많은 시간을 낭비하게 된다. 이 비효율을 해결하기 위해 자율형 AI 프레임워크(AI agent frameworks)의 성능을 평가하고 최적의 도구를 선택하는 내부 모니터링 대시보드가 개발되고 있다.

해당 도구는 LangGraph, CrewAI, AutoGen, Pydantic AI 등 주요 프레임워크를 정밀 추적한다. 단순한 사용 후기에 의존하지 않고, 최신 업데이트를 자동 반영해 표준 성능 시험(benchmarks)을 수행하는 방식이다. 모든 결과를 한곳에 집결시켜 특정 목적에 가장 적합한 프레임워크를 추천한다. 이제 개발자는 막연한 추측이 아닌 객관적 데이터로 도구를 선택한다.

이 모니터링 도구는 전 세계 180개국 150만 명의 사용자를 보유한 Rocket 1.0 플랫폼 내에서 구축되고 있다. 지난해 출시된 Rocket 1.0은 이른바 '감각적 솔루션 구축(vibe solutioning)'을 위한 통합 플랫폼이다. 초기 리서치와 경쟁사 분석부터 최소 기능 제품(MVP) 제작, 랜딩 페이지 구축, 최종 팀 인계까지 모든 프로젝트 생애주기를 한 환경에서 관리한다. 도구 사이를 오가는 번거로움을 없앤 이 작업 방식은, 파편화된 툴의 마찰을 줄이려는 대시보드의 개발 목적과 정확히 궤를 같이한다.

09AI 목소리, 비용에 따라 비서가 될까 기계가 될까?

개인용 AI 비서의 완성도는 결국 '목소리'에서 결정된다. 최근 토니 스타크 스타일의 인터페이스를 구현한 사례가 이를 잘 보여준다. 어떤 음성 생성 시스템(voice backends)을 선택하느냐에 따라, 사용자는 영화 속 한 장면 같은 몰입감을 느끼거나 혹은 조잡한 기계음을 듣게 된다. 결국 비용과 접근성, 그리고 음질 사이의 선택 문제다.

이 시스템은 용도에 따라 세 가지 선택지를 제공한다. 최상위 옵션은 오픈AI의 실시간 GPT-2다. 매우 깨끗하고 정교한 음성을 출력해 전문적인 비서라는 인상을 준다. 중간 단계인 Grok의 실시간 API는 기능적으로는 충분하지만, 오픈AI만큼의 선명함은 없다. 마지막으로 클라우드 없이 개인 기기에서 구동하는 무료 로컬 버전이 있다. 다만 이 버전은 음질이 현저히 떨어져 사용성이 낮다.

이러한 계층적 구조는 현재 음성 AI 기술이 겪고 있는 파편화 현상을 그대로 보여준다. 사용자는 클라우드 API의 편의성과 고음질을 택할 것인지, 아니면 로컬 구동의 개인정보 보호와 비용 절감을 택할 것인지 결정해야 한다. 음질이 무너지는 순간, AI라는 디지털 페르소나가 주는 몰입감은 즉시 깨진다. 반면 오픈AI 같은 고성능 시스템은 단순한 도구를 넘어 매끄러운 '디지털 동료'로 진화하는 가능성을 증명한다. 결국 개발자는 운영 비용과 사용자 경험 사이의 적정선을 찾는 시험대에 오른 셈이다.

10Recraft V4.1, 프롬프트 몇 단어로 상업용 디자인 완성

전문 디자이너들의 도구 상자가 근본적으로 바뀌고 있다. 범용 이미지 생성 AI에서 디자인 전문 플랫폼으로 중심축이 이동하는 중이다. 최근 공개된 Recraft V4.1 모델군이 그 대표적 사례다. 단순히 프롬프트에 따라 무작위 이미지를 만드는 수준을 넘어, 상업적 이용에 필수적인 정밀함과 특정 출력 형식을 갖춘 AI 전용 디자인(AI-native design) 환경을 제공한다. 이제 AI는 단순한 실험 도구가 아니라 실무용 장비다.

V4.1 모델군은 이미지, 일러스트, 로고, 벡터(Vector) 등 전문 디자인 자산 전반으로 지원 범위를 넓혔다. 특히 실사에 가까운 자연스러운 결과물을 구현하는 데 집중했다. 가장 눈에 띄는 변화는 복잡한 미적 감각을 단 몇 단어만으로 이해한다는 점이다. 디자이너가 길고 기술적인 프롬프트를 일일이 작성하지 않아도, AI가 전문적인 시각적 분위기와 스타일을 직관적으로 파악해 구현한다. 설명이 길 필요가 없다.

Recraft는 이를 통해 브랜드 정체성(BI)과 디지털 아트의 통합 허브를 지향한다. 크기를 키워도 화질 저하가 없는 벡터 그래픽과 실사 이미지를 동시에 생성할 수 있어, 아이디어 구상부터 최종 결과물까지의 과정이 매끄럽게 연결된다. 이는 AI가 단순히 아이디어를 짜내는 보조 도구를 넘어, 즉시 사용 가능한 최종 결과물을 만드는 핵심 엔진이 되었음을 의미한다. 기업과 개인 창작자 모두 프롬프트 입력부터 최종 파일 내보내기까지의 작업 흐름(workflow)에서 발생하는 번거로움을 획기적으로 줄일 수 있게 됐다. 구상이 곧 결과물이 되는 시대다.

11GLM 5.2 vs 제미나이 3.1 프로, 공개 모델의 판정승

고성능 AI의 문턱이 낮아지고 있다. 거대 테크 기업의 폐쇄형 모델을 오픈소스 모델들이 추월하기 시작했기 때문이다. 이제 개인이나 기업은 비싼 구독료를 내고 외부 서비스를 이용하는 대신, 자체 인프라에서 최상위 수준의 AI를 직접 구동하며 결과물을 낼 수 있게 됐다. AI의 권력이 기업에서 사용자로 이동하고 있다.

최근 공개된 GLM 5.2가 제미나이 3.1 프로(제미나이 3.1 Pro)를 다양한 성능 시험(benchmark)에서 앞질렀다. 특히 최종 목표를 놓치지 않고 긴 호흡으로 계획을 세워 실행하는 '장기 과업(long horizon tasks)'에서 압도적인 모습을 보였다. 이로써 GLM 5.2는 GPT 5.5나 클로드 Opus 4.8 같은 최상위 시스템과 어깨를 나란히 하는 강력한 대안으로 떠올랐다. 더 이상 폐쇄형 모델만이 정답은 아니다.

물론 오픈소스의 독주가 완벽한 것은 아니다. 전문적인 소프트웨어 공학 분야에서는 여전히 클로드 Opus 4.8이 우위를 점하고 있다. 실제 개발 환경을 모사한 터미널 테스트나 장시간 코딩 능력을 측정하는 마라톤 테스트에서는 클로드 Opus 4.8이 때때로 큰 격차로 1위를 지키는 모습이다. 전문 코딩 영역은 여전히 폐쇄형 모델의 성벽이 높다.

그럼에도 GLM 5.2의 등장은 업계의 중요한 변곡점이다. 공개 모델이 최첨단 연구소의 최신 모델과 직접 경쟁할 수 있음을 증명했기 때문이다. 이제 일반 사용자들은 특정 기업의 서비스에 종속되지 않고도 최고 수준의 지능을 활용할 수 있다. 엘리트 폐쇄형 모델과 오픈소스 커뮤니티의 격차가 사실상 사라지며, 최첨단 AI의 힘이 모두에게 개방되는 'AI 민주화'가 현실이 됐다. 이제 누구나 최상위 AI를 소유하는 시대다.

12AI 이미지 부분 수정: 모델을 바꿔도 해결 안 된 서버 연결 오류

AI 기반 이미지 편집의 고질적인 오류를 잡으려 했지만, 고성능 모델을 여러 개 갈아 끼워도 문제는 그대로였다. 특히 이미지의 특정 부분을 채우거나 바꾸는 '부분 수정(inpainting)' 기능에서 계속해서 기술적 결함이 나타났다. 이는 특정 AI 모델의 성능 부족이 아니라, 소프트웨어가 외부 모델 서비스와 통신하는 방식 자체에 문제가 있음을 시사한다. 모델이 아무리 강력해도 연결 통로가 막히면 정밀 편집 도구는 무용지물이다.

문제 해결을 위해 AI 모델 공유 플랫폼인 Hugging의 여러 모델을 통합해 테스트했다. 이미지 생성과 편집에 특화된 ideagram과 flux 2 dev 모델을 투입했지만, 결과는 같았다. 두 모델 모두 동일한 '접속 지점 오류(endpoint error)'를 일으켰다. 쉽게 말해, 애플리케이션이 AI 서버에 요청을 보냈지만 서버가 응답하지 않아 사용자 편집기와 AI 연산 장치 사이의 다리가 끊어진 셈이다.

다양한 AI 기능을 통합한 최신 이미지 편집기 환경에서 이런 오류는 치명적이다. 보통 사용자는 갤러리에 이미지를 올린 뒤, 시각 모델이 사물을 식별하는 'AI 태깅'이나 배경 제거 같은 고급 기능을 사용한다. 기본적인 기능은 내장되어 있을지 몰라도, 복잡한 부분 수정 작업은 외부 모델에 의존해야 한다. 결국 접속 지점 오류가 전체 작업의 병목 구간이 된 것이다. 사용자가 기대했던 매끄러운 AI 작업 흐름(workflow)은 ideagram이나 flux 2 dev 모델에 제대로 접속하지 못하는 기술적 한계에 가로막혀 멈춰 섰다.