지난 2월 28일, 서울 세빛섬에서 열린 '제미나이 3 서울 해커톤' 현장. 1,515명 지원자 중 219명이 참가해 111개 프로젝트를 제출한 이 대회에서, 단 한 명의 개발자가 심사위원들의 질문을 연달아 받았다. "다른 외부 API도 섞어 썼나요?"라는 질문에 "백지 상태에서 오직 제미나이 API만 사용했습니다"라고 답하자, 테크 데스크의 구글 전문가들이 고개를 갸우뚱했다. 이 개발자의 이름은 장민수. 그는 이 해커톤에서 최종 1위를 차지했다.
7시간, 8장의 사진, 하나의 API
장민수 씨가 만든 서비스는 'GeminiSpace'다. 스마트폰으로 주변을 360도 커버하는 사진 8장을 찍어 제미나이(구글의 멀티모달 AI 모델)에 전달하면, AI가 공간을 분석해 2D 지도와 3D 복셀(Voxel, 3차원 픽셀) 맵을 생성한다. 사용자는 이후 "냉장고에서 문까지 어떻게 가?" 같은 자연어 질문을 던질 수 있다. 이 모든 과정은 단 7시간 만에 완성됐다. 그는 텍스트 추론에 제미나이 3 플래시(Flash)를, 이미지 생성에는 나노 바나나 모델을 활용했다. 개발 환경은 구글 AI 프로 구독을 기반으로, '제미나이 웹(Gemini Web)', '구글 AI 스튜디오(Google AI Studio)', '구글 안티그래비티(Google Antigravity)' 세 플랫폼을 개발 단계에 맞춰 스위칭했다. 마감 10분 전, 비오(Veo) 모델로 만든 인트로와 AI TTS를 담은 데모 영상까지 제출했다.
예전에는 고도의 엔지니어링이 필요했던 작업이다
로봇이 실내에서 자율 주행하거나 특정 작업을 수행하려면 반드시 '지도'가 필요하다. 전통적인 방식은 고도의 결정론적(Deterministic) 소프트웨어 엔지니어링을 요구하는, 시간 소모적인 작업이었다. 장민수 씨는 본업이 로보틱스 엔지니어다. 그는 해커톤 장소로 향하는 길에 "스마트폰 사진 몇 장으로 제미나이가 지도를 만들어주지 않을까"라는 가설을 세웠다. 결과는 적중했다. 이제는 스마트폰 카메라와 제미나이 API 하나만 있면, 누구나 공간을 인식하는 AI를 만들 수 있게 됐다. 그는 "시각-언어-행동(VLA, Visual-Language-Action) 모델로서 제미나이의 멀티모달리티가 프로덕트의 전부"라고 말했다.
개발자가 바로 체감하는 변화는 '도메인 지식의 가치'다. 장민수 씨는 "이제는 진짜 도메인 지식이 가장 중요한 시대가 왔다"고 강조했다. AI 도구들과 친해지고, 자신의 도메인 속 고질적 문제를 빠르게 해결하는 솔루션을 직접 만들어내는 실행력이 핵심이라는 것이다. 그는 정통파 소프트웨어 엔지니어가 아니라, AI와 매일 수다를 떨며 머릿속 상상을 현실로 끄집어내는 사람이라고 자신을 소개했다. 우승 특전으로 '구글 AI 퓨처스 펀드' 창립자와의 멘토링 기회도 얻었다.




