퇴근 후 카페, 디스코드 서버. 노트북 화면에는 어제저녁 사람이 직접 작성한 코드 대신, 밤사이 AI 에이전트(자율적으로 작업을 수행하는 인공지능 프로그램)가 생성하고 스스로 리뷰까지 마친 수십 개의 풀 리퀘스트가 쌓여 있다. 개발자는 아침 커피를 마시며 이 결과물들을 트리아지(우선순위에 따라 분류)하는 것으로 하루를 시작한다. 이런 풍경이 소프트웨어 개발의 표준으로 곧 바뀐다.

확률적 엔지니어링으로의 전환

소프트웨어 업계는 수십 년간 결정론적 계약 위에 구축되어 왔다. 코드를 작성하고, 테스트하고, 출시하면 정해진 대로 작동한다는 보장이 있었다. 하지만 AI 네이티브(AI를 기본 설계 원칙으로 삼는) 기업의 운영자들 사이에서 코드베이스는 이제 작동한다고 믿는 대상이 되었다. 정확한 확률을 명시할 수 없는 시스템이 된 것이다. Compound Loop와 같은 프로젝트는 여러 프론티어 모델(최신 기술이 적용된 고성능 AI 모델)을 대립시켜 코드를 자율적으로 작성, 리뷰, 병합하는 시스템을 구현했다. 지식 노동 역사상 처음으로, 퇴근한 사람이 유일한 두뇌 복사본을 가져가지 않는 상황이 연출되고 있다. 9-9-6 근무제는 사실상 사망했으며, 24/7 직원이란 24시간 일하는 사람이 아니라 에이전트가 대규모 병렬화로 작업하는 환경을 의미한다.

역할의 분화와 Jevons의 역설

예전에는 사람이 직접 붙잡고 보던 작업들이 이제는 에이전트 함대(유기적으로 협력하는 AI 에이전트 집단)의 몫이 되었다. 최고의 엔지니어는 시스템 아키텍트로, 최고의 아키텍트는 시장 구조를 고민하는 방향으로 이동하며 레버리지를 극대화한다. 반면, 많은 엔지니어가 스펙 작성자나 에이전트 베이비시터(AI의 결과물을 관리하고 감독하는 역할)로 전환되고 있다. 이는 1865년 경제학자 윌리엄 스탠리 제본스가 관찰한 제본스의 역설과 궤를 같이한다. 효율적인 증기기관이 석탄 소비를 줄이는 대신 더 늘렸듯, 코드 작성 단위 비용이 제로에 수렴하자 소프트웨어 생산량은 폭증했다. 이제 가치는 생산 노력이 아닌 방향 설정과 선별, 그리고 일관성에서 결정된다. 에이전트가 1분 만에 500줄의 코드를 생성해도, 미묘한 버그를 잡는 데는 시니어 엔지니어가 1시간 이상을 투입해야 하는 비대칭성이 발생하고 있다. ProximalModular가 공동 연구한 실패 패턴은 이러한 생성과 검증 사이의 간극을 명확히 보여준다.

훈련 위기와 미래 모델을 위한 스캐폴딩

개발팀이 공개한 수치는 여기서 갈린다. 에이전트 중심으로 재구조화한 팀은 1년 전 대비 3배에서 10배의 출력을 달성하고 있다. 그러나 이 과정에서 주니어 엔지니어들의 훈련 위기가 현실화되고 있다. AI에 의존해 시작부터 폴리싱된 코드를 출력하는 주니어들은, 모델이 예상치 못한 방식으로 실패할 때 버그를 찾지 못한다. 취향과 판단력, 장인정신은 어려운 문제와 씨름하는 과정에서 체득되는데, 이 근육이 사라지고 있다. 조직은 현재의 모델이 아니라 1년 뒤 출시될 더 강력한 모델을 활용할 역량을 지금 구축해야 한다. 스펙 작성법, 리뷰 문화, 관측 가능성(시스템 내부 상태를 외부에서 파악하는 능력) 배선 등은 2026년이 아닌 2027년 이후를 위한 스캐폴딩(구조적 토대)이다.

결국 소프트웨어 개발의 미래는 생성의 속도가 아니라, 확률적 시스템 위에서 결정론적 가드레일을 얼마나 정교하게 설계하느냐에 달려 있다.