인공지능에게 어려운 문제를 물어보면 보통 1초 만에 답이 나온다. 그런데 막상 그 답을 써보면 틀린 경우가 많다. 개발자들은 여기서 큰 답답함을 느낀다. 인공지능이 너무 빨리 대답하려고만 해서 정작 중요한 정답은 놓치고 엉뚱한 소리를 하기 때문이다. 왜 인공지능은 한 번 틀리면 계속 틀린 길로만 갈까.

GLM-5.1이 보여준 58.4%의 정답률

최근 개발자 커뮤니티에서는 GLM-5.1(글을 쓰고 코드를 짜는 인공지능 모델)이라는 이름이 뜨겁다. 이 모델은 단순히 말을 잘하는 것이 아니라 끝까지 정답을 찾아내는 능력이 뛰어나다. 구체적인 수치가 이를 증명한다. 실제 프로그램의 고장 난 부분을 얼마나 잘 고치는지 재는 시험인 SWE-Bench Pro(실제 소프트웨어 버그 수정 능력 측정 도구)에서 58.4퍼센트라는 높은 점수를 기록했다.

뿐만 아니라 말 설명을 듣고 코드 저장소를 만드는 능력인 NL2Repo(설명을 코드로 바꾸어 보관함에 넣는 기술)와 컴퓨터 명령창을 얼마나 잘 다루는지 재는 시험인 Terminal-Bench 2.0(명령어 입력창 활용 능력 시험)에서도 아주 좋은 성적을 거뒀다. 기존의 인공지능들이 한 번의 시도로 답을 내놓으려다 실패했다면 이 모델은 다르다. 정답이 나올 때까지 계속해서 시도하는 모습을 보여준다. GLM-5.1은 포기하지 않고 정답을 찾아내는 끈질긴 해결사다.

빠른 대답보다 중요한 끈질긴 생각의 힘

지금까지의 인공지능은 공부한 내용을 빠르게 꺼내 쓰는 방식이었다. 시간이 더 주어진다고 해서 갑자기 정답을 맞히는 경우는 거의 없었다. 하지만 GLM-5.1은 에이전트(스스로 계획을 세워 일을 처리하는 능력) 기능을 강화해 이 문제를 풀었다. 복잡한 문제를 만나면 이를 아주 작은 조각으로 나눈다. 그리고 하나씩 실험하며 정답을 찾아간다.

만약 스스로 생각한 방법이 틀렸다면 다시 전략을 짠다. 이런 과정을 수천 번 넘게 반복하며 정답에 가까워진다. 개발자들 사이에서는 이제 인공지능이 단순히 글을 잘 쓰는 비서가 아니라 진짜 일꾼처럼 행동한다는 반응이 나온다. 한 번에 맞히려는 욕심을 버리고 틀린 부분을 계속 고쳐나가는 과정이 핵심이다. 결국 인공지능의 실력은 얼마나 빨리 말하느냐가 아니라 얼마나 오래 고민하느냐로 결정된다.

터미널을 직접 다루는 진짜 전문가의 모습

이 모델이 무서운 점은 터미널(컴퓨터에 직접 글자로 명령을 내리는 창)을 직접 사용한다는 것이다. 보통의 인공지능은 코드를 짜서 보여주기만 하고 실제로 잘 돌아가는지는 확인하지 않는다. 하지만 GLM-5.1은 직접 명령어를 입력해 결과를 확인한다. 에러가 나면 그 에러 메시지를 보고 다시 코드를 수정한다.

이런 방식은 사람이 실제로 코딩하는 과정과 매우 비슷하다. 코드 보관함(프로그램 파일들을 모아두는 곳) 전체를 이해하고 필요한 부분을 찾아 고치는 능력까지 갖췄다. 이제 개발자는 인공지능에게 정답을 구걸하는 것이 아니라 일을 맡기고 결과를 기다리는 입장이 된다. 인공지능이 스스로 도구를 사용해 문제를 해결하는 전문가로 진화한 것이다. 코딩의 중심이 사람이 짜는 코드에서 인공지능이 관리하는 시스템으로 옮겨가고 있다.

인공지능이 스스로 생각하고 수정하는 시간이 길어질수록 우리가 받는 결과물은 더 완벽해질 것이다.