ByteDance가 이미지와 비디오의 이해와 생성, 그리고 편집까지 하나의 프레임워크에서 처리하는 통합 멀티모달 모델인 Lance를 공개했다. 기존의 인공지능 모델들이 특정 작업에 특화되어 생성 모델과 이해 모델을 따로 운용해야 했던 것과 달리, 이 모델은 단일 구조 내에서 시각적 데이터를 자유롭게 다룬다. 특히 모델의 크기를 효율적으로 유지하면서도 강력한 성능을 내는 데 집중하여 개발자들의 리소스 부담을 획기적으로 줄였다는 점이 핵심이다.
Lance의 기술적 사양과 학습 구조
Lance는 30억 개의 활성 파라미터(인공지능이 데이터를 학습하고 추론하는 데 사용하는 가중치 값)를 가진 경량 모델이다. 이 모델은 기존의 사전 학습된 모델을 가져와 특정 용도에 맞게 미세 조정하는 방식이 아니라, 처음부터 완전히 새롭게 학습된 네이티브 통합 모델이라는 점에서 기술적 차별성을 가진다. 개발팀은 단계별 다중 작업 레시피(여러 가지 작업을 순차적으로 학습시켜 성능을 단계적으로 끌어올리는 방법)를 적용하여 학습 효율을 극대화했다.
학습에 투입된 컴퓨팅 자원은 128대의 A100 GPU(고성능 연산 장치)로, 수천 대의 GPU를 사용하는 거대 모델들과 비교하면 매우 경제적인 규모에서 구축되었다. 이러한 효율적인 학습 구조 덕분에 Lance는 이미지 생성, 이미지 편집, 비디오 생성이라는 세 가지 핵심 영역에서 모두 강력한 성능을 발휘한다. 모델은 텍스트와 시각 데이터를 동시에 처리하는 멀티모달(텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 함께 처리하는 기술) 능력을 기본으로 하며, 단일 프레임워크 내에서 모든 작업이 이루어지도록 설계되었다.
실무 적용 시나리오와 통합 성능의 가치
이 모델이 개발자들에게 주는 가장 큰 의미는 생성과 이해의 경계를 허물었다는 점이다. 일반적인 멀티모달 모델은 이미지를 보고 설명하는 이해 능력이나, 텍스트를 보고 이미지를 만드는 생성 능력 중 하나에 치우치기 마련이다. 하지만 Lance는 텍스트를 비디오로 변환하는 텍스트 투 비디오 기능은 물론, 기존 영상을 수정하는 비디오 편집과 여러 차례의 대화를 통해 일관성을 유지하며 수정하는 다회차 일관성 편집까지 지원한다. 특히 영상 편집에서 프레임 간의 일관성을 유지하는 것은 매우 어려운 과제였으나, Lance는 이를 단일 모델 내에서 해결했다.
실제 성능 예시를 보면 모델의 정밀함이 드러난다. 비디오 이해 테스트에서 인물이 테이블 위에 물건을 몇 번 던졌는지 묻는 질문에 정확히 3번이라고 답하거나, 보라색 구체가 어느 방향으로 움직이는지를 정확히 짚어낸다. 또한 사람이 휴대폰 화면을 통해 물건을 잡는 비현실적인 현상을 정확히 포착하거나, 토마토 퓨레와 닭고기를 섞는 요리 과정을 간결하게 설명하는 능력을 보여준다. 6초 분량의 짧은 영상 속에서 나비와 벌이 꽃 주위에서 상호작용하는 모습을 매우 상세하게 묘사하는 능력 또한 탁월하다.
이미지 영역에서도 파이 차트의 가장 큰 조각이 나머지 조각들의 합보다 큰지를 판단하거나, 자동차의 번호판 숫자를 정확하게 읽어내는 등 높은 수준의 시각적 분석 능력을 입증했다. 이는 30억 개라는 상대적으로 작은 파라미터 규모임에도 불구하고, 벤치마크(모델의 성능을 측정하는 표준 시험)에서 강력한 경쟁력을 갖췄음을 의미한다. 개발자들은 이제 무거운 모델 여러 개를 연결하는 복잡한 파이프라인 대신, Lance 하나만으로 시각 콘텐츠의 생성부터 분석까지 이어지는 전체 워크플로우를 구축할 수 있게 되었다.
Lance는 초경량 규모로 생성과 이해를 통합함으로써 온디바이스 AI 환경에서도 고성능 멀티모달 기능을 구현할 수 있는 새로운 가능성을 제시했다.




