최근 인공지능 연구 현장에서는 텍스트를 넘어 이미지와 영상 정보를 실시간으로 해석하려는 시도가 이어지고 있다. 단순히 데이터를 읽는 수준을 넘어, 사용자의 의도를 파악하고 도구를 직접 제어하는 에이전트(특정 목적을 수행하기 위해 자율적으로 동작하는 프로그램) 형태의 모델이 주목받는 상황이다. 이번에 공개된 GLM-5V-Turbo(시각 정보와 텍스트를 동시에 처리하는 멀티모달 기반 모델)는 이러한 흐름 속에서 멀티모달 에이전트의 기초 체력을 다지기 위해 등장했다.
GLM-5V-Turbo의 기술적 사양과 데이터셋
연구팀은 GLM-5V-Turbo를 통해 시각적 이해도와 추론 속도를 동시에 확보하고자 했다. 이 모델은 arXiv에 게재된 논문 GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents를 통해 상세 구조가 공개되었다. 모델의 핵심은 멀티모달 입력을 처리하는 네이티브 구조에 있다. 기존 모델들이 텍스트와 이미지를 별도의 인코더(데이터를 압축하거나 변환하는 장치)를 통해 처리한 뒤 결합했다면, 이 모델은 통합된 임베딩(데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환하는 것) 공간에서 정보를 처리한다. 연구팀이 제시한 벤치마크 결과에 따르면, 시각적 질의응답(VQA) 작업에서 이전 세대 모델 대비 응답 속도가 약 30% 향상되었다. 특히 복잡한 도표나 차트를 해석하는 능력에서 높은 정확도를 보였다.
기존 멀티모달 모델과의 차이점
예전에는 이미지 인식 모델과 언어 모델을 단순히 이어 붙이는 방식이 주를 이루었다. 그러나 이제는 모델 자체가 시각 정보를 텍스트와 동등한 수준의 토큰(언어 모델이 처리하는 최소 단위)으로 인식하는 네이티브 방식이 표준으로 자리 잡고 있다. GLM-5V-Turbo는 이러한 변화를 반영하여, 외부 도구 호출(API를 통해 다른 소프트웨어를 실행하는 기능) 시 시각적 맥락을 유지하는 능력을 강화했다. 예를 들어, 사용자가 화면의 특정 버튼을 가리키며 동작을 지시할 때, 모델은 화면의 좌표값과 텍스트 명령을 동시에 이해하여 정확한 함수를 호출한다. 이는 단순히 이미지를 설명하는 것을 넘어, 에이전트가 환경과 상호작용하는 데 필요한 필수적인 진전이다.
결과적으로 GLM-5V-Turbo는 멀티모달 에이전트가 단순한 정보 전달자를 넘어 실제 환경을 제어하는 도구로 진화할 수 있음을 입증했다. 모델의 성능은 이제 벤치마크 수치를 넘어 실제 에이전트의 작업 성공률로 평가받는 단계에 진입했다.



