퇴근 후 카페, 강남의 한 코워킹. 노트북 화면에는 터미널 창이 여러 개 열려 있고, 한 개발자는 로컬에서 돌아가는 AI 에이전트에게 "이번 주 회의록 요약하고 일정 정리해줘"라고 명령을 내린다. 몇 초 만에 작업이 끝나고, 에이전트는 스스로 다음 단계를 계획하기 시작한다. 이런 풍경이 곧 더 많은 개발자의 일상이 될 조짐이 보인다.
Hermes 에이전트, 14만 스타와 OpenRouter 1위
Nous Research가 개발한 Hermes 에이전트가 출시 3개월 만에 GitHub에서 140,000 스타를 돌파했다. 지난주 기준으로 OpenRouter(여러 AI 모델을 하나의 API로 연결해 주는 플랫폼)에서 가장 많이 사용된 에이전트로 기록됐다. Hermes는 특정 제공자나 모델에 종속되지 않으며(provider- and model-agnostic), 항상 켜져 있는 로컬 환경에 최적화되어 있다. NVIDIA RTX PC, RTX PRO 워크스테이션, DGX Spark(소형 AI 전용 데스크톱)가 권장 하드웨어다.
Qwen 3.6: 400B급 성능을 16분의 1 크기로
알리바바의 새로운 오픈웨이트 LLM 시리즈 Qwen 3.6(27B, 35B 파라미터)은 이전 세대 120B·400B 모델을 능가하는 성능을 보인다. Qwen 3.6 35B는 약 20GB 메모리에서 구동되면서 120B 모델(70GB+ 필요)을 앞지른다. Qwen 3.6 27B는 밀집(dense) 모델로, 400B급인 Qwen 3.5 397B와 동등한 정확도를 유지하면서 크기는 16분의 1에 불과하다. 두 모델 모두 NVIDIA RTX GPU와 DGX Spark에서 가속화된 AI 추론을 지원한다.
예전에는 클라우드에 의존하던 작업을 이제는 로컬에서
기존 AI 에이전트는 클라우드 API를 통해 동작했기 때문에 지연 시간, 비용, 데이터 프라이버시 문제가 있었다. Hermes는 로컬 전용으로 설계되어 이런 문제를 해결한다. NVIDIA Tensor Core(텐서 연산 가속 하드웨어)가 AI 추론 속도를 높여 Hermes가 다단계 작업을 수행하거나 스스로 기술을 개선하는 데 걸리는 시간을 분 단위에서 초 단위로 단축한다. DGX Spark는 128GB 통합 메모리와 1페타플롭스 AI 성능으로 120B 혼합전문가(MoE) 모델을 하루 종일 구동할 수 있다.
개발자가 바로 체감하는 변화는 설치와 실행의 단순함
Hermes를 로컬에서 실행하는 방법은 직관적이다. Hermes GitHub 저장소에서 시작한 뒤, 선호하는 로컬 모델과 런타임을 연결하면 된다. llama.cpp, LM Studio, Ollama를 통해 Qwen 3.6과 함께 사용할 수 있으며, Hermes는 LM Studio와 Ollama를 기본 지원한다. NVIDIA RTX PRO GPU는 llama.cpp에서 Qwen 3.6 모델의 토큰 생성 속도를 최대 3배까지 높인다. 또한 구글의 Gemma 4 26B·31B 모델이 NVFP4 체크포인트로 제공되어 Blackwell GPU에서 동일 출력 품질에 3배 빠른 추론이 가능해졌다. Mistral Medium 3.5도 llama.cpp·Ollama 호환 업데이트를 통해 RTX PRO와 DGX Spark에서 구동할 수 있다.
NVIDIA는 또한 NemoClaw(OpenClaw를 NVIDIA 장치에 최적화하는 오픈소스 스택)를 발표했으며, 이제 Windows Subsystem for Linux(WSL2)를 지원한다. DGX Spark용 단계별 플레이북도 제공된다.
Hermes와 NVIDIA 하드웨어의 조합은 로컬 AI 에이전트가 단순한 장난감이 아니라 실무 도구로 자리 잡는 전환점이 될 수 있다.




