발표에서 확인된 핵심 사실

AI 에이전트를 도입하고도 사람이 일일이 결과물을 검토하고 수정하는 실무적 피로감은 여전하다. Sakana AI는 모델 크기를 키우는 대신 작업별 전용 가중치를 즉석에서 생성하는 '하이퍼네트워크' 기술을 공개했다. 추론 시점에 작업 전용 모델 어댑터를 즉시 만들어내는 방식이다.

Text-to-LoRA(ICML 2025)는 평문 설명만으로 단 한 번의 패스를 통해 모델 어댑터를 생성하며, 2026년 예정된 SHINE 시스템에도 이 방식이 적용된다. 학습 데이터 없이 설명만으로 최적화된 가중치를 얻어 파인튜닝(Fine-tuning, 특정 데이터로 모델을 재학습시키는 과정)의 비용과 프롬프팅의 컨텍스트 제한을 동시에 우회한다.

Nvidia 연구진은 2025년 논문에서 좁고 반복적인 작업의 경우 소형 모델이 범용 모델보다 10~30배 더 저렴하다고 밝혔다. 에이전트 워크플로우의 단순 작업은 소형 모델만으로 충분한 성능을 낼 수 있으며, 이는 범용 모델의 높은 추론 비용을 효율적으로 대체하는 전략이 된다.

결국 에이전트의 자율성을 높이기 위해 무작정 모델 체급을 올리는 것은 비용 부담이 크다. 작업별 전용 어댑터를 실시간으로 생성하는 아키텍처가 성능과 비용의 실질적 대안이 된다.

하이퍼네트워크(Hypernetwork)는 추론 시점에 작업 전용 모델을 생성한다

기존에는 모델을 다시 학습시키거나 프롬프트를 채우는 데 비용과 시간을 썼다. 파인튜닝은 지식을 가중치에 직접 각인하지만, 새로운 지식을 배울 때 기존 지식이 사라지는 '치명적 망각'이 발생한다. 기업 정책이 바뀔 때마다 비싸고 느린 재학습 사이클을 반복해야 하는 오버헤드가 크다.

인컨텍스트 학습(In-context learning, 프롬프트에 정보를 넣어 즉석에서 학습시키는 방식)은 재학습은 없지만 컨텍스트 부패를 야기한다. 프롬프트가 길어질수록 추론 비용과 지연 시간이 늘어나며, 검색 과정에서 정보가 누락되면 모델이 확신을 가지고 오답을 내놓는 특성이 있다.

하이퍼네트워크(Hypernetwork, 다른 네트워크의 가중치를 출력하는 신경망)는 추론 시점에 기업 정책을 기반으로 작업 특화 소형 모델을 온디맨드로 생성한다. 제너레이터가 다른 네트워크의 가중치를 직접 출력하는 구조다. 모델 전체를 재학습하거나 방대한 데이터를 프롬프트에 주입하는 기존 방식과 완전히 다르다.

이 구조는 파인튜닝의 비용 문제와 인컨텍스트 학습의 컨텍스트 제한을 동시에 해결한다. 기업은 모델 크기를 무작정 키우는 대신 필요한 가중치만 즉석에서 만들어 사용함으로써 비용과 성능의 효율성을 동시에 확보한다.

확인해야 할 핵심 지점

AI가 잡은 초안을 사람이 다시 고치는 반복적 피로감은 Nace.AI의 MetaModel(추론 시점에 모델 가중치를 조정하는 제너레이터)로 해결한다. 기업의 정책 데이터를 기반으로 감사, 컴플라이언스, 리스크 평가 등 규제 업무를 위한 파라미터 적응 모델을 생성한다. 에이전트가 워크플로우의 90%를 처리하고 전문가는 결과만 검증하는 '90/10 분담 구조'를 지향한다.

특히 엄격한 정책 준수가 필수적인 규제 업무에서 MetaModel은 내부 정책을 실시간 반영해 파라미터를 조정한다. 이를 통해 고위험 작업에서도 일관된 정확도를 유지하며 전문가의 개입을 최소화한다.

도메인에 특화된 작고 최신 상태의 모델은 오류가 발생할 수 있는 표면적이 좁다. 도메인 내 오류가 줄어들면 사람이 개입해야 하는 에스컬레이션 횟수가 직접적으로 감소한다. 에이전트의 높은 자율성은 단순한 설정값이 아니라, 전용 어댑터를 실시간 생성해 오류 가능성을 물리적으로 낮춘 아키텍처의 결과다.

이제 에이전트의 자율성을 위해 모델 크기를 키우는 전략은 비효율적이다. 모델의 규모가 아니라, 작업별 전용 어댑터를 얼마나 정밀하게 실시간 생성하느냐가 에이전트의 실질적 자율성과 운영 비용을 결정하는 새로운 판단 기준이 된다.