백로그 대신 실시간 구현, Braintrust가 Codex로 바꾼 개발 속도

보통 서비스에 필요한 기능을 요청하면 '백로그'라는 대기 명단에 올라가 한참을 기다려야 한다. 개발 우선순위에서 밀리면 몇 달이 걸리기도 하는 게 일반적인 소프트웨어 개발의 풍경이다.

"Codex unlocked our ability to try out customer feature requests in real time,"

AI 제품의 품질을 측정하고 관찰하는 플랫폼 Braintrust의 창업자이자 CEO인 안쿠르 고얄(Ankur Goyal)이 한 말이다. Braintrust 팀은 GPT-5.5 기반의 Codex를 도입해 고객의 요청을 단 몇 분 만에 실제 작동하는 프리뷰 브랜치(미리보기용 코드 가지)로 만들어내고 있다.

이제 개발자는 요청서를 읽고 계획을 세우는 대신, 고객과 실시간으로 대화하며 기능을 즉석에서 깎아내는 방식으로 일한다. 도구가 빨라지자 단순히 코딩 속도가 올라간 것이 아니라, 고객과 아이디어를 주고받는 소통 방식 자체가 바뀌기 시작했다.

한 달 만에 팀원 절반이 갈아탄 Codex와 GPT-5.5

보통 개발팀의 주력 도구를 바꾸려면 수개월의 적응 기간과 설득 과정이 필요하다. AI 제품의 품질을 감시하고 평가하는 플랫폼인 브레인트러스트(Braintrust)는 이 흐름을 완전히 깨뜨렸다. 이들은 GPT-5.5 기반의 코딩 도구인 코덱스(Codex)를 개발 공정에 도입했다. 결과는 빨랐다. 도입 한 달 만에 팀원의 50%가 기존 도구를 버리고 코덱스로 갈아탔다. 단순한 편의성 개선을 넘어 작업의 물리적 속도가 바뀌었기 때문이다.

브레인트러스트 엔지니어들은 이제 고객의 기능 요청을 단 몇 분 만에 프리뷰 브랜치(특정 변경 사항만 따로 떼어 확인하는 임시 코드 버전)로 만들어낸다. 예전에는 고객 요청이 들어오면 백로그(나중에 처리하기 위해 쌓아둔 작업 목록)에 넣어두고 우선순위를 정해 순차적으로 처리했다. 지금은 요청 내용을 코덱스에 복사해 붙여넣고 즉시 작동하는 결과물을 고객에게 보여준다. 고객과 함께 화면을 보며 아이디어를 수정하고 기능을 다듬는 실시간 협업이 가능해졌다. 고객과 아이디어를 주고받는 피드백 주기가 주 단위에서 분 단위로 압축됐다.

앙쿠르 고얄(Ankur Goyal) 대표는 터미널의 텍스트 출력 속도를 결정적인 차이로 꼽는다. 터미널은 개발자가 컴퓨터에 명령어를 입력하고 결과를 확인하는 검은 화면의 입력창이다. 코덱스는 이 창에 텍스트를 쏟아낼 때 속도가 줄어들지 않으며, 이는 다른 모델들이 따라오지 못하는 지점이다. 도구가 빨라지자 개발 방식도 바뀌었다. 이전에는 AI가 정답을 내놓도록 정교한 지시문을 작성하는 데 시간을 썼다. 이제는 문제가 발생하는 테스트 코드를 짜고 샌드박스(외부 영향 없이 안전하게 실험하는 격리된 환경)를 만들어 코덱스가 그 안에서 직접 정답을 찾게 둔다. 실험에 드는 비용이 낮아지면서 실시간으로 기능을 구현하고 검증하는 실험적 개발이 가능해졌다.

'프롬프트 입력'에서 '테스트 기반 샌드박스' 실행으로

AI에게 코딩을 시킬 때 보통은 세세한 지침을 적는 일부터 시작한다. 어떤 라이브러리를 사용하고 변수 이름은 무엇으로 정할지, 구체적인 구현 경로를 길게 설명하며 모델을 가이드하는 방식이다. 프롬프트의 세밀함에 의존하던 기존 방식은 작성 시간이 오래 걸리고 작은 실수에도 결과가 크게 틀어지는 단점이 있다. 브레인트러스트(Braintrust, AI 제품 품질 측정 플랫폼) 팀은 이런 방식을 버렸다. 대신 문제 상황을 증명하는 테스트 코드를 먼저 작성하는 체계로 전환했다. 정답이 무엇인지 정의한 시험지를 먼저 만들고 AI가 이를 통과할 때까지 스스로 답을 찾게 만드는 구조다. 사람이 정답으로 가는 경로를 일일이 설계하던 수고를 덜고, 최종 결과값의 기준만 명확히 정의하는 방식으로 바꾼 것이다.

작성한 테스트 코드는 샌드박스라는 격리된 실행 환경에서 작동한다. 샌드박스는 실제 서비스 운영 환경과 완전히 분리되어 코드를 안전하게 실행해 볼 수 있는 가상 공간이다. 코덱스(Codex)는 이 공간 안에서 직접 코드를 실행하고, 테스트 결과가 실패하면 오류 내용을 확인해 스스로 수정하는 과정을 반복한다. 실패 원인을 분석하고 다시 코드를 짜는 루프가 샌드박스 내부에서 완결된다. 사람이 옆에서 단계별로 지시를 내릴 필요가 없다. AI가 통제된 환경 내에서 직접 코드를 돌려보고 정답을 맞힐 때까지 계속해서 시도하며 결과물을 완성한다. 이는 AI에게 단순한 텍스트 생성을 넘어 실제 동작하는 소프트웨어를 만드는 권한을 준 것과 같다.

이런 고속 반복 작업이 가능해진 동력은 터미널의 텍스트 출력 속도에 있다. 터미널은 개발자가 명령어를 입력하고 시스템의 반응을 확인하는 텍스트 기반의 인터페이스 화면이다. 코덱스는 터미널에 방대한 양의 텍스트를 쏟아내도 처리 속도가 저하되지 않는 특성을 가졌다. 다른 모델들이 출력량이 많아질수록 응답 속도가 눈에 띄게 느려지는 것과 대조적이다. 텍스트 출력 속도가 빠르니 수많은 시행착오를 거쳐도 전체 작업 시간이 짧게 유지된다. 결국 속도라는 물리적 성능이 AI가 스스로 학습하고 수정하는 실험 비용을 획기적으로 낮추며 실시간 구현을 가능하게 했다.

백로그를 없애고 실시간 피드백 루프를 구축한 결과

고객이 요청한 기능을 기다리다 지쳐 포기했던 경험은 누구에게나 있다. 브레인트러스트(AI 제품 품질 측정 플랫폼)의 개발팀은 요청 사항을 백로그(작업 대기 목록)에 쌓아두고 우선순위를 정해 처리하던 기존 프로세스를 완전히 제거했다. 이제는 고객의 요청 내용을 그대로 복사해 코덱스(GPT-5.5 기반 코딩 도구)에 입력한다. 단 몇 분 만에 프리뷰 브랜치(기능을 미리 확인해 볼 수 있는 임시 코드 공간)를 생성해 실제 작동하는 결과물을 고객 앞에 내놓는다. 개발 대기 시간이 사라지자 고객의 요청이 제품의 기능으로 변환되는 속도가 압도적으로 빨라졌다.

개발자는 이렇게 만든 결과물을 고객에게 즉시 보여주며 실시간으로 기능을 수정하고 아이디어를 구체화한다. 이전에는 모델의 응답 속도가 느려 개발자가 단계별로 세세하게 지시를 내려야 했기에 새로운 시도를 하는 비용이 컸다. 하지만 코덱스는 터미널(명령어 입력창)에 많은 양의 텍스트를 빠르게 출력하며 개발 흐름을 끊지 않는다. 도구의 속도가 빨라지자 개발자와 고객이 함께 화면을 보며 기능을 다듬는 실시간 반복 구조가 가능해졌다. 앙쿠르 고얄 대표는 이러한 속도 차이가 모델과 상호작용하는 방식 자체를 바꿨다고 설명한다.

아이디어를 검증하는 구체적인 방법론도 함께 바뀌었다. 일일이 프롬프트(AI에게 내리는 명령문)를 짜서 정답을 유도하는 대신, 문제가 발생하는 상황을 증명하는 테스트 코드를 먼저 작성한다. 그다음 샌드박스(외부 영향 없이 안전하게 실행하는 격리 환경)를 구축해 코덱스가 그 안에서 스스로 해결책을 찾고 실행하게 만든다. 단계별로 지시하는 대신 문제를 정의하고 AI가 제어된 환경에서 작동하게 두는 방식이다. 덕분에 개발자는 더 과감하게 공학적 실험을 시도할 수 있게 되었고, 아이디어에서 솔루션으로 넘어가는 경로가 극도로 짧아졌다.

한국 AI 실무자가 주목할 '실험 비용'의 하락

개발자가 새로운 기능을 구현할 때 겪는 가장 큰 장벽은 아이디어를 코드로 옮기는 속도가 아니라, 그 코드가 의도대로 작동하는지 확인하는 반복 작업의 무게다. 과거에는 고객의 요청이 들어오면 이를 문서화하고 우선순위를 정해 백로그(할 일 목록)에 쌓아두는 것이 일상이었다. 하지만 최근 Braintrust(AI 제품의 품질을 평가하고 관측하는 플랫폼) 엔지니어들은 Codex(코드 생성을 돕는 AI 모델)를 도입하며 이 과정을 실시간 구현 방식으로 바꾸었다. 고객의 요구사항을 복사해 붙여넣으면 몇 분 안에 미리보기 브랜치를 생성해 결과물을 바로 보여주는 식이다. 한 달 만에 팀원 절반이 이 도구로 전환한 이유는 단순히 코딩 속도가 빨라져서가 아니라, 고객과의 피드백 순환 고리가 획기적으로 짧아졌기 때문이다.

느린 AI 도구는 개발자가 원하는 결과를 얻기 위해 매번 세밀한 지시 사항을 입력해야 한다. 이런 과정은 시간과 노력을 소모하게 만들어 결과적으로 실험 한 번을 시도하는 데 드는 비용을 높인다. 반면 속도가 빠른 도구는 시행착오의 진입장벽을 낮춘다. 이제 개발자는 단계별로 프롬프트를 입력하며 씨름하는 대신, 문제를 정의하고 제어된 환경에서 AI가 솔루션을 도출하게 만드는 워크플로우를 택한다. Braintrust의 사례처럼 테스트 코드를 작성해 문제를 명확히 한 뒤 샌드박스(외부와 격리된 안전한 실행 환경)에 AI를 풀어놓는 방식은 개발자가 더 많은 가설을 검증하게 만든다.

이러한 생산성 향상은 AI 제품의 품질을 평가하는 Eval(AI 모델의 성능과 정확도를 측정하는 환경) 체계가 뒷받침될 때 극대화된다. 단순히 코드를 빨리 짜는 것을 넘어, 작성된 코드가 올바른지 즉각 판단할 수 있는 환경이 갖춰져야 실험의 양과 질이 동시에 올라가기 때문이다. 한국의 AI 실무자들에게도 속도는 단순한 성능 지표가 아니라, 얼마나 많은 아이디어를 시장에 던져볼 수 있는지를 결정하는 실질적인 비용 변수가 되고 있다. 도구가 빠를수록 개발자는 더 대담하게 실패하고 빠르게 개선하는 실험 중심의 개발 문화를 구축할 수 있다.

개발자가 쌓아둔 할 일 목록인 백로그를 지우고 곧바로 코드를 구현하는 풍경이 현실이 됐다. Braintrust의 Codex는 아이디어가 실제 제품으로 변하는 물리적인 시간을 획기적으로 줄이며 개발 프로세스의 문법을 바꿨다. 과거에는 기획과 구현 사이에 긴 대기 시간이 존재했지만, 이제는 생각과 동시에 결과물이 도출되는 실시간 체제로 전환됐다.

결국 개발의 경쟁력은 무엇을 꼼꼼하게 계획하느냐가 아니라 얼마나 빠르게 실행하고 검증하느냐로 옮겨간다. 기획과 구현의 경계가 사라진 환경에서 제품의 시장 적합성은 더 빠른 속도로 결정된다.