40%. 이번에 공개된 새로운 학습 기반 이미지 코덱이 기존의 최상위 학습 기반 대안들과 비교해 달성한 비트레이트 절감 수치다. 이 수치는 단순히 데이터 용량을 줄이는 것을 넘어, 인간의 시각 시스템이 이미지를 인지하는 방식을 모델링에 직접 반영해 얻어낸 결과물이다. 기존의 하드코딩된 전통적 코덱들이 수학적 규칙에 의존했다면, 이번 연구는 신경망을 통해 시각적 품질과 실행 속도를 동시에 최적화하는 데 집중했다. 그런데 이 기술이 단순히 실험실 수준의 성과에 머물지 않고 실제 모바일 기기에서 작동 가능한 수준으로 올라왔다는 점이 개발자 커뮤니티에서 뜨거운 관심을 받는 이유다.

실용적 학습 기반 이미지 코덱의 설계와 성능

연구팀은 실용적인 학습 기반 이미지 코덱을 설계하기 위해 모델링의 핵심 요소들을 종합적으로 분석했다. 특히 성능 인식 신경 아키텍처 탐색(NAS, 주어진 환경에서 최적의 신경망 구조를 자동으로 찾아내는 기술)을 통해 수백만 개의 백본 구성을 테스트했다. 이를 통해 목표로 하는 온디바이스 런타임 성능을 유지하면서도 지각적 품질을 극대화하는 최적의 모델을 식별해냈다. 연구팀이 제안하는 코덱은 AV1(고효율 비디오 코딩 표준), AV2(차세대 비디오 압축 표준), VVC(다용도 비디오 코딩), ECM(향상된 압축 모델), JPEG-AI(인공지능 기반 이미지 압축 표준)와 같은 기존 표준들과 비교했을 때 2.3배에서 3배에 달하는 비트레이트 절감 효과를 보여준다. 관련 소스 코드는 GitHub 저장소에서 확인할 수 있다.

모바일 환경에서의 압축 속도와 효율성

예전에는 고성능 GPU인 V100(데이터 센터용 고성능 그래픽 처리 장치)을 사용해도 학습 기반 코덱의 연산 속도가 실사용 수준에 미치지 못하는 경우가 많았다. 이제는 아이폰 17 프로 맥스 환경에서 12MP(1200만 화소) 이미지를 인코딩하는 데 230ms, 디코딩하는 데 150ms가 소요될 정도로 비약적인 속도 향상을 이루었다. 이는 대부분의 기존 머신러닝 기반 코덱들이 고성능 서버급 GPU에서 구동되던 것과 비교하면 엄청난 변화다. 개발자가 바로 체감하는 변화는 모바일 기기에서 고화질 이미지를 처리할 때 발생하는 배터리 소모와 대기 시간의 획기적인 단축이다. 연구팀은 이번 연구를 통해 지각적 품질과 연산 효율성이라는 두 마리 토끼를 잡기 위한 최적의 설계 지점을 제시했다.

연구의 기술적 배경과 향후 과제

기존의 전통적인 코덱은 고정된 알고리즘을 사용했기에 인간의 시각적 특성을 반영하는 데 한계가 있었다. 반면 이번에 제안된 방식은 신경망을 통해 이미지의 중요한 시각적 특징을 우선적으로 보존하도록 설계되었다. 연구팀은 엄격한 주관적 사용자 평가를 통해 이 코덱이 기존의 어떤 기술보다도 인간의 눈에 더 자연스럽게 보인다는 점을 입증했다. 이는 단순히 수치상의 압축률을 높이는 것을 넘어, 실제 사용자가 이미지를 보았을 때 느끼는 만족도를 기준으로 코덱을 최적화했음을 의미한다. 향후 이 기술이 모바일 운영체제나 웹 브라우저의 기본 이미지 처리 라이브러리에 통합된다면, 현재의 이미지 전송 방식에 큰 변화가 예상된다.

학습 기반 압축 기술은 이제 이론적 가능성을 넘어 모바일 하드웨어의 실시간 처리 영역으로 완전히 진입했다.