Ollama 버리고 llama.cpp 갈아타라, 속도 1.8배 빠르고 정직한 선택

내 컴퓨터에 설치해서 쓰는 말하는 인공지능이 있다고 상상해 보세요. 우리는 보통 이 인공지능을 쉽게 쓰게 해주는 예쁜 상자를 이용합니다. 그런데 알고 보니 이 상자 안에서 실제로 모든 일을 하는 건 상자 주인이 아니라, 몰래 숨겨둔 작은 로봇이었다면 어떨까요. 상자 주인은 로봇의 이름을 지우고 자기가 다 했다고 거짓말까지 합니다. 심지어 나중에는 그 로봇이 마음에 안 든다며 서툰 솜씨로 만든 가짜 로봇으로 바꿔치기까지 했습니다.

Ollama가 숨긴 llama.cpp라는 진짜 로봇

많은 사람이 Ollama(내 컴퓨터에서 AI를 쉽게 실행하게 돕는 도구)를 씁니다. 설치가 쉽고 명령어 하나로 AI를 불러올 수 있기 때문입니다. 하지만 Ollama는 사실 llama.cpp(AI가 실제로 생각하고 글자를 만들어내는 핵심 엔진)라는 다른 사람이 만든 도구를 가져다 쓴 것에 불과합니다. llama.cpp는 평범한 노트북에서도 AI가 돌아가게 만든 아주 대단한 발명품입니다.

문제는 Ollama가 이 고마운 도구를 썼으면서도 오랫동안 이름을 밝히지 않았다는 점입니다. MIT 라이선스(만든 사람의 이름을 꼭 밝혀야 한다는 약속)라는 규칙이 있지만 이를 무시했습니다. 개발자 커뮤니티에서 계속 지적하자 그제야 구석에 아주 작게 이름을 적어 넣었습니다. 쉽게 말하면 남의 숙제를 베껴 쓰고는 자기 이름만 크게 적어 낸 셈입니다. 결국 Ollama는 남의 기술 위에 껍데기만 씌워 인기를 얻었습니다.

1.8배 느려진 속도와 가짜 이름표 사건

Ollama는 나중에 llama.cpp를 쓰지 않고 직접 엔진을 만들겠다고 선언했습니다. ggml(AI가 계산을 할 수 있게 돕는 아주 기초적인 도구 상자)이라는 더 낮은 단계의 도구를 사용해 직접 만들었습니다. 하지만 결과는 처참했습니다. 원래 잘 되던 기능들이 고장 났고, 예전 버전에서 이미 고쳤던 실수들이 다시 나타났습니다.

비유하자면, 숙련된 요리사가 만든 레시피를 쓰다가 갑자기 요리를 못 하는 사람이 자기 마음대로 재료를 바꿔서 음식을 만든 격입니다. 성능 차이는 숫자로 명확히 드러납니다. 똑같은 컴퓨터에서 테스트했을 때 llama.cpp는 1초에 161개의 글자 조각(토큰)을 만들어냈지만, Ollama는 89개밖에 만들지 못했습니다. 속도가 거의 2배 가까이 차이 나는 것입니다.

정직함의 문제도 터졌습니다. DeepSeek-R1이라는 아주 똑똑하고 무거운 AI 모델이 나왔을 때, Ollama는 이를 흉내 내어 작게 만든 가벼운 모델을 가져왔습니다. 그런데 이름표에는 그냥 DeepSeek-R1이라고 적어두었습니다. 사용자들은 진짜 무거운 모델이 내 컴퓨터에서 돌아가는 줄 알았지만, 실제로는 성능이 낮은 작은 모델을 쓰고 있었던 것입니다. 이는 마치 장난감 자동차를 팔면서 진짜 자동차라고 이름 붙인 것과 같습니다.

닫혀버린 소스코드와 변해버린 모습

처음의 Ollama는 누구나 자유롭게 쓰고 고칠 수 있는 열린 도구를 지향했습니다. 하지만 최근에는 macOS나 윈도우에서 쓰는 GUI(복잡한 명령어 대신 버튼과 화면으로 조작하는 방식) 앱을 내놓으면서 소스코드를 공개하지 않았습니다. 소스코드를 공개하지 않는다는 것은 내부적으로 어떻게 작동하는지 아무도 검사할 수 없게 만들었다는 뜻입니다.

여기에 투자 회사로부터 많은 돈을 받기 시작하면서, 사용자를 위한 도구보다는 회사의 이익을 챙기는 방향으로 변하고 있다는 비판이 나옵니다. 처음에는 편리함이라는 무기로 사람들을 모았지만, 이제는 그 편리함 뒤에 성능 저하와 불투명함을 숨기고 있습니다. 결국 껍데기만 화려한 도구보다는 정직하고 빠른 진짜 엔진을 찾는 사람들이 늘고 있습니다.

이제는 겉모습이 예쁜 상자보다 그 안에서 실제로 누가 일을 하는지 살펴봐야 할 때입니다.

Ollama 버리고 llama.cpp 갈아타라, 속도 1.8배 빠르고 정직한 선택

Ollama가 숨긴 llama.cpp라는 진짜 로봇

1.8배 느려진 속도와 가짜 이름표 사건

닫혀버린 소스코드와 변해버린 모습

관련 기사