Gemma 4 26B 4비트 모델, 속도 8.7% 높이고 한국어 점수 95점 달성

AI에게 질문을 했는데 도덕적인 이유나 내부 규칙 때문에 답변을 거부당한 경험이 있을 것이다. 정답을 알고 있음에도 규칙 때문에 입을 닫는 AI는 사용자에게 답답함을 준다. 왜 이런 제한이 생겼으며 이를 해결하면 무엇이 달라질까.

Gemma 4 26B의 크기 감소와 속도 향상

개발자 커뮤니티에서 Google의 AI 모델인 Gemma 4(Google이 만든 똑똑한 AI 모델) 26B IT(사람의 지시를 잘 따르도록 훈련시킨 모델)를 기반으로 한 SuperGemma4가 공개되었다. 이 모델은 MLX(애플 컴퓨터에서 AI가 더 빨리 돌아가게 돕는 도구) 최적화와 4비트 양자화(복잡한 숫자를 단순하게 바꿔서 모델의 크기를 줄이는 기술)를 적용했다. 그 결과 모델의 크기는 약 13GB로 줄어들었다.

주목할 점은 속도의 변화다. 초당 46.2개의 토큰(AI가 글자를 만드는 최소 단위인 글자 조각)을 생성하며 기존보다 8.7% 빨라졌다. AI 성능을 측정하는 퀵벤치(AI가 얼마나 똑똑한지 점수로 매기는 시험) 점수 역시 기존 91.4점에서 95.8점으로 올랐다. 반면 모델의 크기는 작아졌음에도 불구하고 응답 대기 시간은 눈에 띄게 줄어들었다. 결국 모델의 덩치를 줄여 속도를 높였다.

답변 거부 제거와 한국어 성능의 상관관계

이 모델의 핵심은 비검열(정해진 규칙 때문에 답변을 거부하지 않게 만든 것) 특성이다. 일반적인 AI는 위험하거나 민감한 질문에 대해 답변을 거부하도록 설계되어 있다. 그러나 SuperGemma4는 이러한 필터를 제거하여 사용자가 원하는 답을 막힘없이 내놓는다.

단순히 제한만 푼 것이 아니라 실질적인 능력치도 올랐다. 코딩 점수는 98.6점으로 기존보다 6.3점 상승했다. 특히 Python(컴퓨터에게 명령을 내리는 프로그래밍 언어) 함수를 만들거나 코드를 정리할 때 더 정확한 결과를 보여준다. 한국어 프롬프트(AI에게 내리는 지시문) 처리 점수 또한 95.0점으로 4.3점 올랐다. 한국어로 질문해도 문장이 깨지지 않고 자연스럽게 출력된다는 뜻이다. 규칙의 제약을 없애면서도 정확도는 오히려 올렸다.

로컬 에이전트 환경으로의 확장성

성능 향상은 실제 사용 환경에서 더 큰 의미를 갖는다. 이 모델은 로컬 에이전트(내 컴퓨터에서 사람 대신 스스로 계획을 세워 일을 처리하는 AI) 작업에 바로 투입할 수 있다. 브라우저 자동화나 도구 호출(AI가 계산기나 인터넷 검색 같은 외부 기능을 사용하는 것) 능력이 뛰어나기 때문이다.

설치 과정도 단순하다. mlx_lm.server(AI 모델을 실행해 다른 프로그램과 연결해 주는 서버 도구)를 이용하면 OpenAI 호환 방식으로 바로 사용할 수 있다. 별도의 복잡한 설정 없이도 기존에 OpenAI 도구들을 쓰던 방식 그대로 연결이 가능하다. 데이터 저장 방식 역시 Safetensors(AI 모델의 데이터를 안전하고 빠르게 저장하는 방식) 포맷을 사용하여 효율성을 높였다. 복잡한 설정 없이 바로 실무에 쓸 수 있는 상태가 되었다.

개인 컴퓨터에서 제약 없이 빠르게 작동하는 AI의 효율성이 증명되었다.

Gemma 4 26B 4비트 모델, 속도 8.7% 높이고 한국어 점수 95점 달성

Gemma 4 26B의 크기 감소와 속도 향상

답변 거부 제거와 한국어 성능의 상관관계

로컬 에이전트 환경으로의 확장성

관련 기사