1시간짜리 영상에서 내가 원하는 장면 하나를 찾으려면 어떻게 해야 할까. 보통은 영상 제목을 보거나 누군가 적어둔 설명을 읽는다. 하지만 영상 속의 긴박한 추격전이나 슬픈 표정 같은 느낌은 글로 다 적기 어렵다. 왜 우리는 지금까지 영상 속 내용을 정확히 검색하지 못했을까.

아마존 노바가 가져온 영상 분석의 변화

아마존이 Nova Multimodal Embeddings(여러 종류의 정보를 AI가 이해하는 숫자로 바꾸는 기술)를 공개했다. 이 기술은 글자, 사진, 영상, 소리를 모두 하나의 Vector Space(비슷한 뜻을 가진 정보들이 모여 있는 가상의 공간)에 넣는다. 이제 AI는 사이렌 소리가 들리는 긴박한 자동차 추격전이라는 말을 들으면 영상과 소리를 동시에 분석한다.

이 기능은 Amazon Bedrock(기업들이 AI를 쉽게 만들 수 있게 도와주는 서비스)을 통해 제공된다. 기업들은 이제 수천 시간의 영상 데이터 속에서 특정 배우가 나오는 장면만 빠르게 골라낼 수 있다. 스포츠 중계사는 선수가 골을 넣는 정확한 순간을 즉시 찾아내 하이라이트 영상을 만든다. 뉴스 회사는 사건의 분위기나 장소만으로 필요한 영상을 빠르게 찾아 보도 시간을 단축한다. 정보의 처리 속도가 곧 돈이 되는 시장에서 강력한 무기가 등장한 셈이다.

글자로 바꾸지 않고 그대로 이해하는 이유

기존의 검색 방식은 영상을 먼저 글자로 바꾸는 과정이 필요했다. 사람이 직접 태그를 달거나 AI가 말을 글로 옮겨 적는 식이었다. 하지만 이 과정에서 영상의 분위기나 중요한 시각적 정보가 사라진다. 말을 하지 않는 운동선수의 멋진 동작은 글자로 표현하기 어렵다. 글자로 바꾸는 과정에서 오타가 나거나 중요한 맥락이 잘려 나가는 문제도 잦았다.

Nova는 영상을 글자로 바꾸지 않고 영상 그 자체를 숫자로 변환해 이해한다. 시각적인 장면과 배경 음악, 대화 내용을 한꺼번에 처리한다. 정보의 손실이 사라지면서 검색의 정확도가 비약적으로 올라갔다. 사용자가 원하는 의도를 AI가 더 정확하게 파악하게 되었다. 영상 데이터를 다루는 방식의 지형이 완전히 바뀐 것이다.

장면의 맥락을 살리는 하이브리드 검색 전략

아마존은 더 정확한 검색을 위해 두 가지 방식을 합친 하이브리드 구조를 선택했다. Lexical Search(정확한 글자 그대로를 찾는 검색)와 Semantic Search(단어가 아니라 뜻을 찾아내는 검색)를 동시에 사용한다. 정확한 이름이나 단어를 찾을 때는 글자 검색을 쓰고, 분위기나 상황을 찾을 때는 뜻 검색을 사용해 결과를 합친다.

영상을 자르는 방식에도 전략을 담았다. 단순히 10초마다 기계적으로 자르는 것이 아니라 FFmpeg(동영상을 자르거나 바꾸는 도구)를 사용해 장면이 실제로 바뀌는 지점을 찾아낸다. 장면이 바뀌는 순간을 기준으로 영상을 나누어야 AI가 그 장면의 의미를 온전히 이해할 수 있기 때문이다. 이렇게 나누어진 영상 조각들은 각각의 의미를 가진 데이터가 되어 검색 효율을 극대화한다. 기술적 포석을 통해 검색의 정밀도를 높인 결과다.

이제 영상 검색은 단어를 찾는 수준을 넘어 순간의 의미를 찾는 단계로 진입했다. 콘텐츠 시장의 검색 지형이 완전히 바뀔 것이다.