소프트웨어 엔지니어링의 지형이 바뀌고 있다. 자동화 도구의 진화와 모델 성능의 향상이 개발자와 코드 사이의 상호작용 방식을 근본적으로 재정의하고 있기 때문이다.

최근 코딩 어시스턴트에는 유연한 작업 흐름(dynamic workflow) 기능이 도입되고 있다. AI가 단순히 코드 한 줄을 추천하는 수준을 넘어, 복잡한 다단계 프로그래밍 과제를 스스로 판단해 처리하는 자율형(agentic) 능력을 갖추기 시작한 것이다. **이제 AI는 단순 보조 도구가 아니라 독립적인 작업 수행자로 진화하고 있다.**

연산 부하가 큰 환경에서 응답 속도를 높이기 위한 고속 성능 모드도 주목할 만하다. 데이터 처리량이 많은 까다로운 환경에서도 지연 시간(latency)을 최소화해 개발 흐름이 끊기지 않도록 설계됐다.

흥미로운 점은 개발자들이 과거에 짰던 오래된 코드(legacy project)를 모델 성능 시험(benchmark) 도구로 활용하기 시작했다는 것이다. 이미 정답과 한계를 알고 있는 자신의 옛 프로젝트에 최신 모델을 적용해 봄으로써, AI가 실제 현장의 기술 부채(technical debt)나 복잡한 설계 구조를 얼마나 정확하게 파악하는지 검증하는 방식이다. **가장 확실한 테스트 데이터는 결국 현장의 실제 코드였다.**

이러한 변화는 AI 시스템이 더 긴밀하게 통합되고, 빠르게 반응하며, 스스로를 검증하는 방향으로 나아가고 있음을 보여준다. 자동화가 가속화되는 환경에서 소프트웨어를 구축하는 방식은 이제 완전히 달라질 것이다. 이번 호에서는 이러한 기술적 전환의 실체와 그것이 가져올 미래의 변화를 짚어본다.

01코딩 비서를 넘어 프로젝트 매니저로 — 클로드 코드의 자율형 작업 흐름

AI의 역할이 코드 몇 줄 추천하는 '비서'에서 프로젝트 전체를 꿰뚫는 '관리자'로 진화하고 있다. 앤스로픽(Anthropic)이 선보인 자율형 작업 흐름(dynamic workflows)을 통해 클로드 코드는 단일 AI가 감당하기 힘들었던 대규모 엔지니어링 과제를 처리한다. 이제 개발자는 서비스 전체를 뒤져 버그를 찾아내거나, 수백 개의 파일을 동시에 수정해야 하는 마이그레이션 작업을 AI에게 맡길 수 있다. 단순한 보조 도구가 아니라, 디지털 인력을 지휘하는 프로젝트 매니저가 된 셈이다.

핵심은 AI가 스스로 작업 지시서(orchestration scripts)를 작성해 수십, 수백 개의 자율형 보조 AI(sub-agents)를 동시에 가동하는 방식에 있다. 순차적으로 일을 처리하는 기존 방식과 달리, 이들은 복잡한 요청을 작은 단위로 쪼개어 동시에 해결한다. 정확도를 높이기 위한 상호 검증 체계도 도입했다. 여러 AI가 서로의 결과물을 반박하고 검토하며 최적의 답을 찾아가는 구조다. 특히 실수가 치명적인 고위험 작업에서는 결과물을 일부러 '공격'해 취약점을 찾아내는 적대적 AI를 투입해 완성도를 극한으로 끌어올린다.

효율성은 압도적이다. 실제 시연에서 50여 개의 AI 에이전트 팀은 임대차 계약서와 메모 등 70개가 넘는 방대한 문서를 분석해 실사 보고서를 작성하는 데 단 20~30분밖에 걸리지 않았다. 전문가가 매달려 수 시간을 보내야 할 작업이다. 이러한 대규모 병렬 처리는 XAI와의 Colossus Access 계약으로 확보한 강력한 컴퓨팅 파워가 뒷받침했다. 성능 지표 역시 이를 증명한다. Opus 4.8 모델은 최근 자율 코딩 성능 시험(Swebench Pro)에서 제미나이(Gemini) 3.5 Pro보다 15%, GBC 5.5보다 11% 앞선 성적을 거뒀다. AI가 복잡한 소프트웨어 개발을 독립적으로 수행하는 새로운 표준이 세워진 것이다.

02개발자의 역할 — 코드를 짜는 손에서 AI를 지휘하는 눈으로

소프트웨어 개발이 직접 코드를 쓰는 노동에서 자율형 AI(AI agents)를 지휘하는 체제로 빠르게 변하고 있다. 마티아스 카스텔로는 Codex를 활용해 초기 기획부터 최종 테스트까지 프로젝트의 전 과정을 자동화하며 이 변화를 증명했다. 개발자가 키보드 앞에서 씨름하는 대신 아이디어만 던지면, AI가 스스로 로드맵을 짜고 코드를 작성한 뒤 작동 여부까지 확인해 결과만 보고하는 식이다. 이제 개발자는 문법이 아니라 결과를 관리하는 감독관이 됐다.

AI에게 전권을 주면서도 통제권을 잃지 않기 위해 카스텔로는 '기능 제어 스위치(feature flags)'를 도입했다. 특정 기능을 껐다 켰다 할 수 있는 디지털 스위치를 통해 AI가 만든 결과물을 모듈별로 실험하는 방식이다. 덕분에 Codex는 스스로 경쟁사 제품을 조사해 핵심 기능을 찾아내고, 이를 코드에 직접 반영할 수 있다. 개발자가 잠에서 깨어나면 AI가 밤새 준비한 실험적 기능들이 검토를 기다리고 있는 셈이다. 이러한 작업 흐름(workflow)은 프로젝트 관리 도구인 Linear와 밀접하게 연동된다. Codex는 단순히 할 일 목록을 만드는 수준을 넘어, 직접 백로그를 관리하고 마일스톤을 설정하며 완료된 작업을 스스로 종료한다.

효율성 측면의 성과는 압도적이다. 과거 SnapCat 프로젝트처럼 5명의 인원이 하루 내내 매달려야 했던 작업이, 이제는 정교한 프롬프트와 몇 가지 맞춤형 기술만으로 한 번에 생성(one-shot)되는 수준에 이르렀다. 자동화의 범위는 PC를 넘어 일상으로 확장됐다. 애플워치로 녹음한 음성 메모가 Codex의 작업 명령으로 이어져, 랜딩 페이지의 오타를 수정하는 식의 즉각적인 편집이 가능하다. 오픈AI는 이러한 생태계를 확장하기 위해 Codex CLI와 검증 장치(harness), 앱 서버를 오픈소스로 공개했으며, 최신 모델인 GPT-5.5를 통해 더 복잡한 자율 작업 흐름을 구현하고 있다.

03이제 AI에게 큰 일거리를 통째로 맡겨도 될까?

사용자는 이제 복잡하고 거대한 프로젝트를 AI에게 맡기고 일일이 감시하는 스트레스에서 벗어날 수 있다. 클로드 Opus 4.8의 자율형 작업 흐름(Dynamic Workflow) 기능은 하나의 거대한 요청을 수십, 수백 개의 작은 작업으로 쪼개어 여러 AI 에이전트가 동시에 처리하게 만든다. 핵심은 신뢰도다. AI가 거짓 정보를 지어내는 환각 현상을 줄이고, 긴 작업 도중 포기하지 않게 설계해 전체 업무 과정을 독립적으로 처리할 수 있는 수준까지 끌어올렸다. 여기에 '노력 제어(Effort Control)' 다이얼을 추가해 생각의 깊이를 조절할 수 있다. 간단한 질문은 빠르고 저렴하게, 어려운 문제는 깊은 추론을 통해 해결하는 식이다.

이 기능을 쓰는 법은 간단하다. 프롬프트에 'workflow'라는 키워드만 넣으면 된다. 그러면 클로드 코드가 작업 범위를 정하고 필요한 에이전트 수를 결정한다. 여기서 흥미로운 점은 에이전트들이 서로 경쟁하는 '스파링' 구조를 가진다는 것이다. 일부 에이전트가 통찰을 제시하면, 다른 에이전트들이 '미세 반론 제기자(micro devil's advocate)'가 되어 그 결과가 데이터에 기반했는지 집요하게 따진다. 예를 들어 보안 점검 시 한 에이전트가 권한 확인 누락을 지적하면, 다른 에이전트가 이를 반박하며 검증하는 식이다. 이 과정을 통해 잘못된 탐지(false positive)를 걸러내고, 확실히 검증된 문제만 인간 개발자에게 전달한다.

이제 AI는 단순한 생산성 도구를 넘어 특정 분야의 전문가로 진화했다. 보안 전문가가 아닌 일반 소프트웨어 엔지니어 보리스 스타코프(Boris Starkov)는 최근 클로드 코드를 이용해 구형 Viking VOIP 전화기의 내부 구조를 분석(reverse engineer)했다. AI는 단순히 속도를 높인 것이 아니라, 문서화되지 않은 명령 코드를 일일이 대입해 찾아내고 체크섬 프로토콜을 반복 검증하며 불가능해 보였던 작업을 현실로 만들었다. 물론 완벽하지는 않다. 작업 시간이 길어지면 에이전트가 중간에 멈춰버려, 계속하라는 지시를 내렸음에도 사람이 직접 다시 시작시켜야 하는 신뢰성 문제가 여전히 보고되고 있다.

04클로드 Opus 4.8, 2.5배 빠른 속도로 대기 시간 삭제

이제 업계 최고 수준의 AI 모델을 훨씬 빠르게 사용할 수 있게 됐다. 복잡한 텍스트가 화면에 나타나길 기다리며 멍하니 보내던 시간이 획기적으로 줄었다. 정보가 뚝뚝 떨어지듯 느리게 출력되던 경험이 이제는 막힘없이 쏟아지는 흐름으로 바뀌었다. 실시간 상호작용의 반응성이 극대화됐다. 속도가 올라가면서 프롬프트 입력부터 최종 답변까지의 간극이 좁아졌고, 전체적인 업무 흐름(workflow)은 훨씬 매끄러워졌다.

이번 성능 향상의 핵심은 클로드 Opus 4.8에 도입된 '패스트 모드'다. AI가 생성하는 기본 텍스트 단위(토큰)의 생성 속도를 표준 모드 대비 약 2.5배 끌어올렸다. 초당 평균 100토큰을 생성하던 모델이 이제는 250토큰까지 쏟아내는 셈이다. 단순히 속도만 빨라진 것이 아니다. 이전 4.7 버전보다 지능과 판단력은 더 날카로워졌는데, 기본 가격은 그대로다. 고성능 지능을 사용하는 실질 비용이 낮아진 결과다.

물론 속도를 얻은 대신 비용이라는 기회비용이 발생한다. 표준 모드는 기존 가격을 유지하지만, 패스트 모드를 활성화하면 토큰당 비용이 약 2배로 뛴다. 하지만 과거와 비교하면 효율성은 오히려 압도적이다. 현재의 패스트 모드는 이전 버전의 동일 기능보다 3배나 저렴하다. 이제 사용자는 작업의 긴급도에 따라 '최대 경제성'과 '최대 속도' 중 하나를 선택하면 된다.

이 기능은 AI의 사고 깊이를 조절하는 '노력 제어(effort control)' 시스템의 일부로 통합됐다. 다이얼을 돌리듯 설정할 수 있다. '낮음'으로 설정하면 단순한 정보 검색 작업을 빠르고 저렴하게 처리한다. 반대로 설정값을 높이면 AI가 더 깊게 고민하게 된다. 출력 속도는 느려지고 비용은 올라가지만, 난도가 높은 문제에 대해 훨씬 정교한 추론 결과를 내놓는다. 단순한 답변이 필요할 때 굳이 비싼 '심층 사고' 비용을 지불할 필요가 없어진 셈이다.

05개발자들의 새 시험대 — 10년 전 프로젝트가 AI 성능의 잣대

개발자들이 인공지능의 실질적인 성장세를 측정하는 실용적인 방법으로 '개인 성능 시험(personal evaluations)'을 활용하고 있다. 추상적인 업계 표준 지표에 의존하는 대신, 자신의 과거 작업물을 새로운 모델에게 다시 구현하도록 시키는 방식이다. 과거에는 상당한 인적 자원이 투입되어야 했던 작업을 AI가 얼마나 해내는지 확인하면서, 개발자들은 자신의 옛 포트폴리오를 기술의 발전 속도와 능력을 가늠하는 살아있는 척도로 활용하고 있다.

마티아스 카스텔로(Matias Castello)는 10여 년 전 해커톤에서 직접 만들었던 '스냅캣(SnapCat)' 프로젝트를 다시 꺼내 이 방식을 증명했다. 당시 이 앱은 고양이가 스스로 셀카를 찍게 한다는 재미있는 목표로 시작했지만, 이를 구현하기 위해서는 5명의 팀원이 꼬박 하루를 매달려야 했다. 오늘날 카스텔로는 이 프로젝트를 최신 AI 모델의 성능을 측정하는 시험대로 쓴다. 그는 특히 AI가 여러 번의 수정 없이 단 한 번의 응답만으로 앱의 전체적인 기능적 뼈대를 완성하는 '원샷(one-shot)' 능력을 중점적으로 확인한다.

이러한 노력의 차이는 소프트웨어 개발 방식이 얼마나 거대하게 변했는지를 극명하게 보여준다. 과거에는 팀 전체의 협업이 필요했던 업무가 이제는 잘 짜인 프롬프트 하나와 몇 가지 통합된 기술만으로 해결된다. 단순한 코드 작성을 넘어, 개발자들은 이러한 개인 시험을 통해 디자인과 세부 사항의 개선 정도까지 평가할 수 있다. 예를 들어 카스텔로는 AI에게 밝고 다채로우며 장난기 넘치는 인터페이스를 요구해, AI가 개발의 미적 영역을 얼마나 잘 다루는지 확인한다. 개발자들은 AI의 결과물을 인간이 만든 원본과 직접 비교하며, AI가 구상을 완제품으로 탈바꿈시키는 능력이 얼마나 진화했는지 정밀하게 측정하고 있다.