AI 산업의 흐름이 '감(vibe)'에 의존하던 코딩 시대를 지나, 실제 서비스에 즉시 투입 가능한 수준의 체계적인 작업 흐름(workflow)을 구축하는 '운영 성숙기'로 접어들고 있다. 이번 주에는 개발 도구와 결과물 관리 플랫폼 모두에서 의미 있는 변화가 포착됐다. Higharc는 머신러닝 개발 단계에서 실제 서비스 적용으로 넘어가는 과정을 체계화했고, Notion과 Perplexity는 협업을 통해 프로젝트 관리 업무의 자동화를 가속하고 있다. AI가 단순한 보조 도구를 넘어 비즈니스 운영의 실질적인 파트너로 자리 잡는 추세다.
모델 생태계의 복잡성과 성능 또한 계속 진화하고 있다. DeepSeek와 Hermes AI가 내놓은 신규 모델들은 스스로 오류를 수정하는 자가 치유 시스템(self-healing systems)의 효용과 고성능 모델 유지 비용 사이의 균형점을 다시 고민하게 만든다. Ollama와 Nvidia 하드웨어를 중심으로 한 로컬 우선 환경(local-first stacks)이 확산되면서, 개발자들의 관심은 자율형 AI의 독립성(agentic autonomy)과 시스템 응답 속도(latency) 사이의 최적점을 찾는 데 쏠리고 있다.
고성능 신규 모델의 등장이나 강력한 가중치(weights)의 오픈소스 공개 모두, 결국 핵심은 안정성과 성능 검증(evaluation), 그리고 기존 전문 업무 환경으로의 실질적인 통합이다. 최신 성능 지표와 대규모 모델 배포에 따른 경제성 변화를 함께 짚어보며, 현재 AI 기술이 도달한 정확한 지점을 분석한다.
01연구용 AI를 실제 제품으로 빠르게 바꾸는 Higharc의 설계 표준
Higharc는 AI 연구 결과가 실제 소프트웨어로 구현되는 과정의 병목 현상을 해결하고 있다. 작동하는 프로토타입을 엔지니어링 팀에 넘길 때 발생하는 마찰을 줄이기 위해 '연구 프로젝트 분류 체계(RPT, Research Project Taxonomy)'라는 기술 설계도를 도입했다. 이 설계도는 연구 프로젝트의 구조와 데이터 타입을 명확히 정의해, 소프트웨어 엔지니어가 복잡한 프로토타입을 업계 표준 방식에 맞춰 관리 가능한 단위로 쪼갤 수 있게 돕는다. 특히 사용자 인터페이스, 비즈니스 로직, 데이터를 분리하는 계층형 구조(layered architecture)를 통해 시스템 간의 의존성을 낮추고 깔끔한 코드를 유지한다. 설계도가 명확해야 AI도 길을 잃지 않는다. 이러한 구조적 접근은 협업 효율을 높일 뿐 아니라, 자율형 AI(AI agents)가 코드 저장소를 쉽게 파악해 머신러닝 연구자의 작업 속도를 높이는 환경을 만든다.
Higharc가 내부 작업 흐름을 정교화하는 사이, 글로벌 AI 연구소들 사이에서는 전략적 격차가 벌어지고 있다. 일부 최첨단 연구소들이 최신 모델의 접근 권한을 엄격히 제한하는 반면, DeepSeek 같은 곳은 가중치(weights)와 학습 레시피를 공개하는 개방형 전략을 취한다. 최근 DeepSeek는 모델을 다시 학습시키거나 압축하지 않고도 텍스트 생성 속도를 획기적으로 높이는 기술인 DeepSpark를 공개했다. 이는 작은 '초안 모델'이 먼저 답을 추측하고, 더 큰 '타겟 모델'이 이를 한 번에 검증하는 추측성 디코딩(speculative decoding) 방식을 활용한다. 속도를 위해 모델 전체를 뜯어고칠 필요는 없다.
DeepSeek는 여기서 더 나아가 문장 끝부분의 품질이 떨어지며 메인 모델이 이를 거부하는 '접미사 쇠퇴(suffix decay)' 문제를 해결한 D-Spark를 개발했다. 각 토큰이 이전 토큰을 참조할 수 있는 가벼운 직렬 헤드(serial head)를 추가해, 기존 Eagle 3나 D Flash보다 훨씬 긴 텍스트 블록을 한 번에 처리할 수 있게 했다. 여기에 토큰별 점수를 매기는 신뢰도 평가 헤드(confidence head)와 서버 부하를 감시하는 하드웨어 인식 스케줄러를 결합했다. 서버 부하가 심할 때는 신뢰도가 높은 부분만 검증해 컴퓨팅 자원을 아낀다. DeepSeek version 4의 실제 서비스 적용 결과, 추가 하드웨어 도입 없이도 사용자당 생성 속도가 60%에서 85%까지 향상됐다. 소프트웨어 최적화만으로 이뤄낸 실질적인 성과다.
02업무 관리의 자동화 — AI가 실무를 처리하고 인간은 결정만
프로젝트 관리가 수동 업데이트 시대에서 AI가 실무를 직접 처리하는 자율형 작업 흐름(autonomous workflow) 시대로 넘어가고 있다. Notion에서는 클로드 에이전트가 워크스페이스 전체를 분석해 소프트웨어 버그를 찾아내고 해결책을 제안한다. 이후 관련 작업 카드를 '계획' 단계로 자동 이동시켜 사람이 검토하게 만든다. 사용자가 모바일로 승인만 하면, 시스템이 Cursor를 호출해 실제 코드를 작성하고 카드를 '완료'로 옮긴다. 책상 앞에 앉아 일일이 단계를 챙길 필요가 사라졌다. Hermes 에이전트의 `/arn` 명령어는 문서나 PDF, 매뉴얼을 재사용 가능한 기술로 변환해, 단어 하나로 미리 정의된 전체 프로세스를 실행한다.
법률 조사처럼 정확도가 생명인 전문 영역에서는 가장 적합한 AI 모델에 작업을 배분하는 모델 라우팅(model routing) 기술이 핵심이다. Perplexity의 법률팀 전용 'computer for council' 에이전트는 GPT 5.5, Claudson 4.6, 제미나이 3.1 Pro 중 최적의 모델을 선택해 신뢰도를 높인다. 예를 들어 미국 개인정보 보호법 추적기를 만들 때, 에이전트는 최적의 모델을 골라 모든 답변에 검증 가능한 실제 출처를 연결함으로써 환각 현상을 방지한다. 계산은 AI가 하고, 최종 판단은 전문가가 내리는 구조다.
설계와 배포의 경계도 희미해지고 있다. GenSpark는 '구축 전 사고(think-before-build)' 방식의 작업 흐름을 도입했다. 결과물을 즉시 내놓는 대신 프로젝트 체크리스트를 만들고, 분위기나 애니메이션 스타일에 대해 질문을 던진다. 그 후 프롬프트 하나로 랜딩 페이지, 앱 디자인, 런칭 영상까지 한 번에 제작한다. 분할 화면 인터페이스에서 실시간으로 코드를 작성해 시각적 디자인을 실제 작동하는 앱으로 변환한다. 한편, 폐쇄형 모델의 비용 상승과 제약에서 벗어나려는 움직임으로 GLM-5.2 같은 오픈 소스 모델이 최상위 모델들과 경쟁하며 빠르게 성장하고 있다. 기업 환경의 보안을 위해 Nvidia는 Open Claw 에이전트를 안전하게 구동하는 보안 정책 계층인 Nemo Claw를 선보였다. DeepSeek는 D-Spark를 통해 모델의 텍스트 초안 작성 능력을 최적화했다. 가벼운 헤드(head) 구조를 추가해 앞선 텍스트에 더 집중하게 만들고, 부하 기반 스케줄러로 초안 길이를 조절해 컴퓨팅 자원을 아낀다.
03여러 도구 쓸 필요 없이 AI가 알아서 영상까지 만들어줄까?
고품질 AI 영상을 만들 때 더 이상 수십 개의 도구와 설정을 일일이 바꿀 필요가 없다. Higgsfield는 시댄스(시댄스) 모델을 포함해 이미지, 영상, 오디오 모델을 하나의 플랫폼으로 통합해 작업 흐름(workflow)을 단순화했다. 특히 이번에 공개한 시댄스 2.0은 영상 간의 연결을 매끄럽게 만드는 전환 영상에 집중해 전체적인 완성도를 높였다. 사용자는 이제 여러 생성 모델을 위해 각각 구독료를 낼 필요 없이, 이곳 한 곳에서 모든 멀티모달 콘텐츠를 제작할 수 있다. 구독료 낭비 시대가 끝났다.
모델이 너무 많아 무엇을 쓸지 고민하는 '결정 마비' 문제는 모델 컨텍스트 프로토콜(MCP)로 해결했다. 쉽게 말해 MCP는 클로드(클로드) 같은 자율형 AI(AI agent)가 Higgsfield의 도구들을 어떻게 사용하는지 알려주는 다리 역할을 한다. 사용자가 복잡한 메뉴를 뒤져 설정을 찾을 필요 없이, 간단한 목표만 제시하면 AI가 최적의 모델과 기능을 스스로 선택해 조합한다. 플랫폼의 내부 구조를 몰라도 AI가 알아서 최선의 기술적 경로를 찾아내는 방식이다. 전문 지식은 AI가, 결정은 사람이 한다.
이 기능은 AI 캐릭터가 제품을 소개하는 사용자 제작 콘텐츠(UGC) 전용 도구인 Marketing Studio에서 특히 강력하다. MCP를 통해 Marketing Studio를 자율형 AI에 연결하면, 제품 이미지 등록부터 홍보 영상 생성까지의 모든 제작 공정(pipeline)을 자동화할 수 있다. 기업은 여기서 더 나아가 명령줄 인터페이스(CLI)를 활용해 완전히 자율적인 콘텐츠 생산 기계를 구축할 수 있다. 예를 들어 Mac Mini 같은 기기에서 시스템을 돌려 사진과 영상을 주기적으로 생성하고, 이를 인스타그램이나 틱톡에 자동으로 업로드하는 식이다. 최소한의 개입으로 AI 기반의 소셜 미디어 운영이 가능해진다. 콘텐츠 제작이 '작업'에서 '관리'로 바뀐다.
04Hermes AI, GPT 5.5로 오류 스스로 잡고 최적 모델 자동 배치
Hermes AI는 소프트웨어 충돌의 주범인 유지보수 작업을 자동화해 기술적 진입장벽을 낮췄다. GPT 5.5를 기반으로 한 자가 복구(self-healing) 기능은 사용자 개입 없이 누락된 의존성이나 오류를 직접 해결한다. 예를 들어, 최근 30일간의 데이터를 추적하는 새로운 기능을 설치했는데 필요한 파일이 없다면, Hermes AI가 임시 디렉토리에 해당 저장소의 최신 복사본을 자동으로 가져와 엔진을 계속 돌린다. 새로운 오류가 발견되면 내부 코드를 직접 수정하는 패치까지 적용한다. 실시간으로 스스로를 고치는 셈이다.
유지보수뿐 아니라 작업 성격에 맞는 최적의 AI를 연결하는 모델 라우팅(model routing) 기능도 갖췄다. 모든 요청을 하나의 모델에 맡기지 않고, 다양한 추론 제공업체의 모델을 전문 역할에 따라 배정한다. 오픈AI, 앤스로픽, DeepSeek, 제미나이, LM Studio 등이 지원 대상이다. 덕분에 시각 작업, 데이터 압축, 웹 추출 등 각 분야에 강점이 있는 모델을 적재적소에 배치하는 모듈형 작업 흐름(workflow)이 가능해져 효율을 극대화했다.
자가 복구와 유연한 라우팅의 결합은 사용자 경험을 '수동 문제 해결'에서 '끊김 없는 운영'으로 완전히 바꿨다. GitHub에서 누락된 파일을 가져오거나 최적의 모델을 선택하는 등의 복잡한 기술적 뒷단은 AI가 전담한다. 사용자가 소프트웨어 의존성이나 모델 선택법을 공부할 필요가 없어진 것이다. AI가 스스로 건강 상태를 관리하고 성능을 최적화하는 회복 탄력적인 시스템이 됐다. 이제 사용자는 인프라가 아니라 결과물에만 집중하면 된다.
05최강의 지능과 가벼운 속도 — 오픈AI가 설계한 맞춤형 모델 체계
오픈AI가 최첨단 AI 모델의 접근 방식을 완전히 바꿨다. GPT 5.6이라는 이름 아래 사용자 필요에 따라 성능, 비용, 속도를 선택하는 '계층형 시스템'을 도입한 것이다. 최상위 모델인 Soul은 오픈AI가 가진 현존 최고의 기술력을 집약해 가장 까다로운 작업에 최적화했다. 일상적인 업무에 적합한 Terra는 이전 모델 대비 비용을 절반으로 낮추면서도 안정적인 성능을 제공하며, Luna는 대량의 반복 작업이나 대규모 운영을 위해 저렴하고 빠른 속도에 집중했다. 이제 AI도 용도에 맞춰 골라 쓰는 시대다.
특히 소프트웨어 개발 분야에서 Soul의 성능은 압도적이다. 오픈AI 내부 테스트 결과, Soul은 앤스로픽의 Fable 5를 제치고 코딩 능력에서 정점에 올라섰다. 개발자 입장에선 복잡한 코드 생성과 오류 수정(debugging) 작업에서 경쟁 모델보다 훨씬 유능한 도구를 얻게 된 셈이다. 하지만 성능이 너무 강력한 탓일까. 미국 정부가 Soul에 대한 접근을 차단하며, AI의 급격한 발전과 규제 사이의 갈등이 수면 위로 떠올랐다. 성능이 너무 좋아 정부가 막아선 꼴이다.
고성능 라인업 외에 일반 사용자들을 위한 변화도 있다. 수억 명의 무료 사용자들에게 제공되는 기본 모델이 GPT 5.5 Instant로 교체됐다. 이 모델의 핵심은 여러 제약 조건이 얽힌 복잡한 계획 수립 능력이 크게 개선됐다는 점이다. 예를 들어 '예산 8만 루피, 차량 이동 시간 3시간 이내'라는 까다로운 조건으로 4인 가족의 케랄라 5일 여행 계획을 짤 때, 모델은 즉각 답을 내놓지 않고 요구 사항을 처리하기 위해 의도적으로 '생각하는 시간'을 갖는다. 이후 거리와 예산을 최적화하기 위해 Alppy 대신 Kumarakcom을 선택하는 식의 전략적 판단을 내린다. 무조건 빠른 답변보다 제약 조건을 꼼꼼히 따져 최적의 해답을 찾는 방향으로 진화한 것이다.
06DeepSeek: AI 답변 속도를 최대 4배 높이는 기술 전격 공개
DeepSeek가 자사 모델의 속도를 높이는 핵심 도구인 D-Spark를 MIT 라이선스로 전격 공개했다. 누구나 자유롭게 수정하고 사용할 수 있는 이 도구를 통해 AI의 답변 생성 속도를 획기적으로 끌어올릴 수 있게 됐다. 특히 고비용의 재학습이나 메모리 절약을 위해 정밀도를 낮추는 양자화(quantization) 과정 없이도 성능을 높였다는 점이 핵심이다. 결과적으로 동일한 모델을 사용하면서도 속도를 50%에서 최대 400%까지 높일 수 있다. 비용 없이 속도만 올리는 실질적인 해법이다.
이 가속화의 핵심은 '추측 디코딩(speculative decoding)' 방식에 있다. 작고 빠른 '초안 모델'이 먼저 텍스트를 빠르게 생성하면, 더 크고 강력한 '타겟 모델'이 이를 한 번에 검토해 정확도를 잡는 분업 구조다. 거대 모델의 품질은 유지하면서 속도는 소형 모델 수준으로 구현한 셈이다. DeepSeek는 이 시스템을 이미 V4 flash와 V4 Pro Pro 모델에 적용해, 단순한 연구 수준이 아닌 실제 서비스에 즉시 투입 가능한 기술임을 입증했다. 이론이 아니라 실전용 기술이다.
DeepSeek는 다른 개발자들도 동일한 성과를 낼 수 있도록 'Deep Spex'라는 저장소를 통해 구현 과정 전체를 공개했다. 단순한 코드뿐 아니라 가중치(weights), 학습 코드, 성능 시험(evaluation) 스크립트까지 모두 포함된 패키지다. 이미 학습된 체크포인트까지 제공해 커뮤니티가 내부 구조를 완전히 분석하고 자신의 프로젝트에 즉시 적용할 수 있게 했다. 기술을 독점하는 폐쇄형 연구소와 설계도를 통째로 공유하는 개방형 연구소의 격차가 극명해지는 지점이다. 설계도까지 다 줬다.
07GenSpark, 문장 한 줄로 오후 만에 실제 서비스 구축
GenSpark가 소프트웨어를 구상하는 방식을 완전히 바꾸고 있다. 이제는 문장 한 줄만 입력하면 단 하루 만에 실제 작동하는 제품을 인터넷에 띄울 수 있다. 개발팀이라는 거대한 장벽이 사라진 셈이다. 1인 창작자가 랜딩 페이지부터 앱 디자인, 전문적인 홍보 영상까지 한 번에 만들어낸다. 배포와 호스팅 같은 기술적 난제를 자동화해, 비전문가도 아이디어를 즉시 현실로 구현할 수 있게 됐다.
기존 AI 툴들이 운 좋게 좋은 결과가 나오길 바라는 '추측성 프롬프트'에 의존했다면, GenSpark는 인터뷰 방식의 작업 흐름(workflow)을 도입했다. AI가 사용자에게 타겟 플랫폼(iPhone 등), 필요한 화면 구성, 시각적 스타일, 상호작용 방식 등을 구체적으로 되묻는 식이다. 시각적 결과물을 내놓기 전, 시스템은 먼저 정교한 실행 계획을 세운다. 예를 들어 온보딩, 핵심 기능, 탐색, 소셜 등 11개 화면으로 구성된 구조도를 먼저 짠다. 결과물은 단순한 스크린샷이 아니라, 텍스트 수정이 가능한 실제 작동 웹페이지다.
완성도를 높이는 과정도 직관적이다. 사용자는 펜 도구로 화면의 특정 부분을 동그라미 쳐서 수정 요청을 보내는 시각적 주석 기능을 활용하며, 되돌리기(undo) 기능으로 빠르게 수정할 수 있다. 마케팅 자료 제작 역시 정밀하다. 홍보 영상을 만들 때 GenSpark는 영상 크기, 길이, 애니메이션 스타일(시네마틱 또는 AI 생성형)을 세밀하게 설정하게 한다. 제품 시연이나 '사용자의 하루' 같은 구체적인 스토리라인까지 설계해, 영상이 앱의 분위기와 정체성에 완벽히 부합하도록 만든다.
08AI 개발 방식 — '감'에 의존하던 코딩의 종말
데모 영상에서 잘 돌아가는 것과 실제 사용자가 쓰는 도구가 안정적으로 작동하는 것은 완전히 다른 문제다. 그동안 많은 개발자가 이른바 '느낌 기반 개발(vibe coding)'에 의존해 왔다. 결과물을 대충 훑어보고 "괜찮아 보인다" 싶으면 그대로 출시하는 방식이다. 취미 프로젝트라면 상관없지만, 실제 서비스 환경에서는 치명적이다. 누군가의 삶에 영향을 주는 도구가 정교한 설계 없이 '감'으로 만들어졌다면, 그 결과는 예측 불가능하며 위험할 수밖에 없다. 느낌만으로는 서비스를 버틸 수 없다.
이제 AI 개발은 더 엄격한 관리 체계로 넘어가고 있다. 제품이 사용자에게 닿기 전, 명확한 요구사항과 까다로운 검증 기준을 먼저 세우는 단계다. "일단 출시하고 보자"는 생각 대신, 안전성과 성능 표준을 충족하는지 반복해서 확인할 수 있는 평가 틀(framework)을 구축하는 것이 핵심이다. 특히 작은 실수가 큰 사고로 이어지는 고위험 환경일수록 이런 변화는 필수적이다. AI 개발을 운 좋은 추측의 반복이 아닌 구조적인 공학 문제로 다뤄야 비로소 상용화 가능한 수준의 제품이 나온다. 운에 맡기는 도박이 아니라 공학이어야 한다.
전문적인 개발 과정의 핵심은 성능 시험(evaluation)과 모니터링(monitoring)을 명확히 분리하는 것이다. 성능 시험은 제품 출시 전, 의도한 대로 작동하는지 확인하는 엄격한 테스트 과정이다. 반면 모니터링은 출시 후 실제 환경에서 시스템이 어떻게 돌아가는지 지속적으로 살피는 감시 체계다. 두 과정 모두 필수적이지만 역할은 다르다. 성능 시험이 결함이나 위험한 기능의 유출을 막는 방어선이라면, 모니터링은 실제 데이터와 사용자 행동 속에서도 시스템이 정상 작동하게 만드는 유지 장치다. 이 두 단계를 유기적으로 연결해야 실험실 수준의 프로토타입을 넘어, 비즈니스 현장에서 믿고 쓸 수 있는 안정적인 AI 애플리케이션이 완성된다.
09비싼 GPU 없이 AI를 돌린다? 로컬 환경의 새로운 기준은?
개발자들이 클라우드 의존도를 낮추고 기업 자체 하드웨어에서 모델을 직접 구동하는 '로컬 중심 환경(local-first stacks)'으로 빠르게 이동하고 있다. 외부 서버에 의존하지 않음으로써 보안을 강화하고 운영 비용을 획기적으로 줄이려는 전략이다. 최근의 전형적인 구성은 Ollama로 AI 모델과 임베딩 도구를 관리하고, 서버(backend)는 Python과 FastAPI, 사용자 화면(frontend)은 React, 데이터베이스는 PostgreSQL을 사용하며 이 모든 과정을 Docker로 통합 관리하는 방식이다. 비용 장벽이 무너졌다. 특히 Ollama는 일반 중앙처리장치(CPU)에서도 모델을 구동할 수 있어, 개발 초기 단계부터 값비싼 그래픽처리장치(GPU)를 무조건 갖춰야 했던 부담을 없앴다. 덕분에 팀들은 하드웨어 비용 걱정 없이 훨씬 가볍게 애플리케이션을 구축하고 테스트할 수 있게 됐다.
하지만 로컬 환경의 최대 적은 지연 시간(latency), 즉 사용자의 요청과 시스템 응답 사이의 간격이다. 특히 스스로 생각하고 행동하며 복잡한 문제를 해결하는 '자율형 AI(agents)'를 도입할 때 속도 저하가 심각해진다. 로컬 Ollama 설정에서 여러 개의 자율형 AI를 순차적으로 구동하면 응답에 20~30초가 걸리기도 한다. 사용자가 기다리다 지쳐 떠나기에 충분한 시간이다. 이를 해결하기 위해 엔지니어들은 Python 기반의 자율형 AI를 선택하고 있다. 복잡한 AI 루프를 전통적인 Python 함수로 대체해 처리 속도를 높이는 방식이다. 로컬 모델의 강력한 성능은 유지하면서도 사용자 경험을 매끄럽게 만드는 현실적인 해법이다.
더 강력한 성능이 필요한 기업에는 Nvidia DGX Spark 플랫폼이 효율적인 경로를 제공한다. Ollama와 Open Web UI를 결합해 로컬 네트워크 접근과 모델 배포 과정을 단순화했다. 이 인프라는 주로 Neotron 모델 제품군을 활용하며, Neoclaw를 통해 보안이 강화된 자율형 AI를 구축한다. 특히 Neoclaw의 안전 가이드라인 내에서 Open Claw 자율형 AI를 운용함으로써, 로컬 개발의 유연성과 기업급 보안이라는 두 마리 토끼를 모두 잡았다.
10자율형 모드의 비용: 더 정교한 답변, 더 길어진 대기 시간
AI가 단순 검색 방식에서 복잡한 자율형 모드(agent mode)로 전환되면 응답 속도가 눈에 띄게 느려진다. 검색 증강 생성(RAG)은 데이터베이스에서 필요한 정보를 빠르게 찾아 답변하는 방식이다. 과정이 단순한 만큼 응답 속도가 매우 빠르다. 효율이 곧 속도다.
지연 시간이 발생하는 이유는 중간에 '판단' 단계가 추가되기 때문이다. 단순히 데이터를 가져오는 것이 아니라, 자율형 AI가 요청을 분석해 어떤 도구를 사용할지 결정하는 과정이 필요하다. 예를 들어 수십 가지 제품을 가진 브랜드를 물어보면, AI는 단순 검색 대신 제품 비교 도구를 실행해 더 상세한 정보를 모으기로 결정한다. 정보의 질은 올라가지만, 도구를 호출하고 전체 작업 흐름(workflow)을 조율하는 시간이 추가되면서 사용자가 느끼는 대기 시간은 길어진다. 정교함의 대가는 시간이다.
구조가 복잡해질수록 응답 경로는 길어지고 완료 시간은 늘어난다. 개발자는 이런 성능 편차를 관리하기 위해 LangChain Fuse 같은 모니터링 도구(telemetry tools)를 활용한다. 이를 통해 어떤 답변이 생성되는지, 시스템이 어떻게 작동하는지 로컬 환경에서 추적할 수 있다. 추가적인 자율형 AI 호출이 전체 속도에 어떤 영향을 주는지 정확히 파악해야 한다. 그래야 정보의 깊이와 사용자 대기 시간 사이에서 최적의 균형점을 찾을 수 있다.
11Zhipu, 클로드 3와 대등한 성능 — 보안 분석의 전유물이 사라졌다
소프트웨어의 치명적인 보안 취약점을 찾아내는 능력은 이제 소수 폐쇄형 AI의 전유물이 아니다. Zhipu는 코드의 오류 메커니즘을 정확히 이해하고 깊게 추론해야 하는 보안 버그 식별 작업에서 클로드 3와 대등한 성능을 보여주고 있다. 디지털 인프라 보안이라는 고난도 영역의 진입 장벽이 무너지고 있다.
이러한 흐름은 곧 출시될 GLM-5.5를 통해 더욱 가속화될 것이다. GLM-5.5의 명확한 목표는 클로드 3 수준의 성능 구현이다. 업계 최상위 시스템과의 격차를 완전히 없애겠다는 의지다. 기존 GLM 시리즈가 고성능 모델들과 경쟁하는 수준이었다면, 이번 버전은 현재 공개된 가장 진보된 모델들과 동일한 선상에서 작동하는 것을 목표로 한다.
그동안 업계에서는 개발 방식을 공유하는 오픈소스 연구소가 내부 기밀을 유지하는 폐쇄형 연구소보다 항상 뒤처질 것이라고 믿어왔다. 지능과 성능의 격차가 유지되거나 오히려 더 벌어질 것이라는 가설이었다. 하지만 Zhipu와 GLM-5.5의 행보는 이 가설이 틀렸음을 증명한다. 특히 중국 내 인프라 투자가 결정적인 역할을 했다. 거대 모델 학습에 필요한 하드웨어와 시스템에 막대한 자본을 쏟아부으며 오픈소스와 폐쇄형 시스템의 경계를 허물고 있다. 이제 기업과 개발자가 최상위 AI 성능을 이용하는 방식 자체가 바뀔 것이다.
12AI 이용료 부담: 결국 내 서버에 직접 설치하는 시대
최신 AI를 사용하는 비용이 급격히 늘어나면서 많은 사용자와 기업이 오픈소스 대안으로 눈을 돌리고 있다. 선도적인 AI 연구소들이 더 강력한 모델을 내놓을수록 이용료는 계속 치솟는 추세다. 이제 오픈소스는 단순히 비용을 아끼는 수단이 아니라, 거대 기업들만 고성능 AI를 독점하는 미래에서 살아남기 위한 전략적 선택지가 됐다. 단순한 비용 절감이 아니라 생존의 문제다.
단순히 돈 문제만은 아니다. 폐쇄형 모델에 의존하는 것은 서비스 제공자가 정한 규칙에 내 사업의 운명을 맡기는 불안한 도박과 같다. 갑작스러운 본인 인증 요구부터 지역 제한까지, 제공자가 마음만 먹으면 언제든 제약을 걸 수 있기 때문이다. 심지어 Fable 5처럼 모델 자체가 시장에서 완전히 사라지는 경우도 발생한다. 이런 불확실성 속에서 독점 모델을 장기 프로젝트의 기반으로 삼는 것은 너무나 위험하다. 통제권 없는 기술은 모래성과 같다.
MIT 라이선스 같은 오픈소스 모델은 기술을 자체 인프라에 직접 구축하게 함으로써 이런 변동성을 해결한다. 자체 서버에서 모델을 돌리면 외부의 간섭 없이 일관된 성능을 유지할 수 있고, 갑자기 서비스 권한이 박탈될 걱정도 없다. 결국 매달 내는 구독료를 서버 장비라는 자산 투자로 바꾸는 셈이다. 다만 문제는 초기 인프라 구축 비용이다. 기업은 이제 치솟는 AI 이용료를 계속 감당할 것인지, 아니면 막대한 하드웨어 투자 비용을 들여 독립할 것인지 사이에서 선택해야 한다. 구독료 대신 하드웨어에 투자하는 시대로 변하고 있다.
