OpenAI API 그대로 쓰는 구글 Gemma 4, 아마존 베드락 상륙

Apache 2.0 기반 Gemma 4 모델 3종의 공식 출시

오픈 소스 모델을 실무에 도입하려면 고성능 GPU 서버를 직접 구축하고 수십 기가바이트의 가중치 파일을 관리해야 한다. 이러한 인프라 설정과 운영 비용을 해결하기 위해 구글 딥마인드가 개발한 Gemma 4 모델군이 아마존 베드락의 완전 관리형 서비스로 제공된다. 사용자는 서버 프로비저닝이나 가중치 호스팅 없이 API 호출만으로 고성능 오픈 모델을 즉시 사용할 수 있다.

Gemma 4는 Apache 2.0 라이선스로 공개된 오픈 웨이트 모델이다. 모델의 학습 결과물인 가중치를 외부에 공개하여 사용자가 직접 내려받거나 수정할 수 있다. 이번 제품군은 파라미터당 지능 효율을 극대화하는 설계에 집중했으며, 지침 튜닝을 거친 Gemma 4 31B, Gemma 4 26B-A4B, Gemma 4 E2B 세 가지 변체로 구성된다. 사용자는 모델 아키텍처와 학습 방법론을 독립적으로 평가하고, 자체 데이터를 통해 미세 조정을 수행할 수 있다.

입력 단계에서 텍스트와 이미지를 동시에 처리하는 멀티모달 기능을 지원한다. 사용자는 이미지 파일을 입력해 내용을 질문하거나, 시각적 정보와 텍스트 지침을 결합해 복잡한 분석을 수행한다. 언어 지원 범위 또한 광범위하다. 총 140개 이상의 언어로 사전 학습을 진행했으며, 35개 이상의 언어에 대해서는 즉각적인 지원이 가능하다. 다국어 환경의 문서 이해 파이프라인이나 글로벌 고객 응대 시스템에 별도 추가 학습 없이 바로 적용할 수 있다.

MoE와 PLE로 구현한 파라미터 효율성과 256K 컨텍스트

Gemma 4 31B와 26B-A4B 모델은 최대 256K 토큰의 컨텍스트 윈도우를 지원해 방대한 양의 텍스트를 한 번에 처리한다. 기술적으로는 로컬 어텐션과 글로벌 어텐션을 교차 배치하는 하이브리드 어텐션 설계를 적용했다. 로컬 어텐션이 인접한 토큰의 관계를 파악하고 글로벌 어텐션이 전체 맥락을 짚어내는 방식으로 작동하여, 메모리 점유율을 낮게 유지하면서도 데이터를 누락 없이 처리한다.

Gemma 4 26B-A4B 모델은 MoE(Mixture-of-Experts) 아키텍처를 사용했다. 전체 파라미터 규모는 25.2B이지만, 실제 토큰 하나를 처리할 때 활성화되는 파라미터는 3.8B뿐이다. 대형 모델의 지식 저장소는 활용하면서 연산 비용과 지연 시간은 4B급 소형 모델 수준으로 낮춰 추론 효율을 극대화했다.

Gemma 4 E2B 모델은 PLE(Per-Layer Embeddings)를 통해 레이어별로 임베딩을 최적화하여 중복 파라미터를 줄였다. 전체 5.1B 파라미터 중 실제 작동하는 실효 파라미터 수를 2.3B까지 낮춰 GPU 메모리 요구량을 감소시키고 연산 속도를 높였다. 이를 통해 낮은 컴퓨팅 자원 환경에서도 고성능 추론이 가능하다.

모델 내부의 추론 모드를 활성화하면 최종 결과물을 내놓기 전 내부 사고 과정인 Thought process를 텍스트로 출력한다. 모델이 정답을 도출하기 위해 거친 논리적 단계와 가설 검증 과정을 사용자가 실시간으로 확인할 수 있다. 이는 모델의 사고 경로를 투명하게 공개하여 답변의 근거를 검증하게 하며, 복잡한 코딩 문제나 수학적 추론 작업에서 논리적 오류를 빠르게 찾아낼 수 있게 한다. 또한 네이티브 함수 호출 기능을 통해 외부 API나 도구를 호출하는 구조화된 데이터를 생성함으로써 에이전트 기반의 워크플로우를 구현할 수 있다.

지능 지수 39 달성과 관리형 인프라의 이점

Gemma 4 31B는 파라미터당 지능을 극대화해 효율성을 수치로 증명했다. 벤치마크 기관 Artificial Analysis가 발표한 지능 지수(Intelligence Index)에서 Gemma 4 31B는 39를 기록했다. 이는 4B에서 40B 사이의 오픈 웨이트 모델 클래스 중앙값인 15를 두 배 이상 상회하는 수치로, 동일한 하드웨어 자원에서도 더 복잡한 추론과 정교한 답변이 가능하다는 것을 보여준다.

아마존 베드락은 추론 스택(Inference Stack) 구축과 운영 과정을 완전히 제거해 최신 모델 사용과 운영 제어권 사이의 간극을 메웠다. 개발자는 서버 사양을 고민하거나 가중치 파일을 관리하는 운영 부담 없이, 관리형 서비스가 제공하는 인터페이스만으로 고성능 모델을 실무에 즉시 투입할 수 있다.

보안 측면에서 Gemma 4는 모든 추론이 AWS 인프라 내에서만 실행되므로, 기존 AWS 보안 및 개인정보 보호 제어 기능을 통해 규제 준수(Regulatory Alignment)를 달성할 수 있다. 사용자가 입력한 프롬프트와 생성된 결과물을 모델의 추가 학습에 사용하지 않으며, 제3자와 공유하지 않는다. 인프라 운영의 편의성을 확보하면서 데이터 주권과 보안 요구사항을 동시에 충족하는 구조다.

bedrock-mantle 엔드포인트와 OpenAI SDK 호환성

아마존 베드락은 `bedrock-mantle`이라는 전용 엔드포인트를 통해 API 호출 규격 수정 과정을 생략한다. 접속 URL은 `https://bedrock-mantle.{region}.api.aws/openai/v1`이며 Chat Completions와 Responses API를 제공한다. 이 엔드포인트는 모델 배포 계정 격리와 운영자 접근 차단 설계가 적용된 차세대 추론 엔진의 공용 API 인터페이스 역할을 수행한다.

OpenAI Python 및 TypeScript SDK와 동일한 인터페이스를 그대로 사용한다. 개발자는 베이스 URL과 모델 ID만 수정하면 기존 코드 구조를 유지한 채 Gemma 4 모델군으로 마이그레이션할 수 있다. 이는 API 래퍼 작성이나 통신 로직 수정 시간을 없애 실무 도입 속도를 높이며, 모델 변체 간의 전환을 설정 변경 수준으로 낮춘다.

추론 권한은 AWS 자격 증명 및 액세스 관리(IAM) 정책으로 제어한다. 추론 전용 권한이 필요하면 `AmazonBedrockMantleInferenceAccess` 정책을 연결해 `bedrock-mantle:CreateInference`와 `bedrock-mantle:CallWithBearerToken` 권한을 확보한다. 프로젝트 관리나 파인튜닝 등 전체 관리가 필요하면 `AmazonBedrockMantleFullAccess` 정책을 부여한다.

보안 강화를 위해 최대 12시간 동안 유효한 단기 API 키를 사용하며, 유효 기간이 지나면 자동으로 만료된다. 네이티브 AWS 자격 증명만 있는 환경에서는 `aws-bedrock-token-generator` 패키지를 사용해 단기 베어러 토큰(Bearer Token)을 생성함으로써 엔드포인트를 호출한다. 이는 키 유출 위험을 낮추면서 자동화된 토큰 갱신 체계를 통해 안정적인 추론 파이프라인을 유지한다.

한국 AI 실무자를 위한 모델 선택 및 활용 가이드

구글 딥마인드가 개발한 Gemma 4 모델군은 작업 성격에 따라 세 가지 선택지를 제공한다. 고성능 추론과 복잡한 코드 생성이 필수적인 소프트웨어 설계나 심층 분석 작업에는 Gemma 4 31B 모델을 권장한다. 지식 용량은 유지하면서 운영 비용과 지연 시간을 낮춰야 하는 서비스 환경에서는 Gemma 4 26B-A4B 모델이 적합하며, 초경량 애플리케이션이나 메모리 비용을 극도로 낮춰야 하는 엣지 환경 및 단순 처리 작업에는 Gemma 4 E2B 모델을 사용한다.

실무 적용 사례로는 텍스트와 이미지를 동시에 처리하는 멀티모달 에이전트, 대량의 기업 문서를 분석하는 문서 이해 파이프라인, 자동화된 소프트웨어 엔지니어링 워크플로우가 대표적이다. 특히 31B 모델의 성능을 활용해 마이크로서비스 설계나 단위 테스트 작성을 자동화할 수 있다. 최신 지원 모델 목록과 세부 사양은 Amazon Bedrock 모델 카탈로그에서 확인 가능하다.

모든 변체는 시스템 프롬프트, 구조화된 도구 호출, 이미지 입력, 사고 과정 출력 모드라는 공통 인터페이스를 공유한다. 개발자는 API 표면을 한 번만 설계한 뒤, 실제 워크로드의 비용과 지연 시간 프로필에 따라 모델 ID만 변경하며 최적의 변체를 찾아낼 수 있다.

GPU 서버를 직접 구축하고 수십 기가바이트의 가중치 파일을 관리하며 겪던 운영 부담은 이제 선택의 영역으로 넘어갔다. 아마존 베드락을 통해 제공되는 Gemma 4 모델군은 MoE(전문가 혼합)와 PLE(레이어별 임베딩) 같은 효율적 설계의 이점을 인프라 설정 없이 즉시 누리게 한다.

결국 오픈 모델 도입의 핵심은 서버 구축 능력이 아니라, 베이스 URL과 모델 ID를 변경해 최적의 지능을 빠르게 검증하는 실행력으로 바뀐다. 지금 바로 기존 API 설정의 엔드포인트만 수정해 고성능 오픈 모델의 실무 적용 가능성을 판단하는 것이 가장 효율적인 전략이다.