인간의 검토마저 생략하는 자동화, 앤스로픽 'Claude Code'의 도발

"The key principle is getting out of Claude’s way. We like to say: ‘Let it cook.’"

앤스로픽(Anthropic)의 엔지니어 라비 트리베디(Ravi Trivedi)가 런던에서 개최된 개발자 행사 'Code with Claude'에서 밝힌 원칙이다. 구글(Google)의 I/O 행사와 같은 날인 5월 19일에 시작된 이번 이벤트에서 앤스로픽은 단순한 코드 생성을 넘어, AI가 스스로 판단하고 수정하는 자율적 개발 환경의 가능성을 제시했다.

주목할 점은 앤스로픽이 지향하는 지점이 '인간의 보조'가 아닌 '인간의 배제'에 가깝다는 것이다. 기존의 AI 코딩 도구가 인간이 작성한 프롬프트에 따라 코드를 제안하고 인간이 이를 수정하는 방식이었다면, 이제는 AI가 스스로에게 프롬프트를 던지고 오류를 수정하며 결과물을 완성하는 구조로 진화하고 있다. 이는 소프트웨어 개발의 기본 단위인 풀 리퀘스트(Pull Request, 기존 소프트웨어에 대한 수정·업데이트 제안) 작성 방식의 근본적인 변화를 의미한다.

5월 19일 공개된 Claude Code와 4.7 버전의 실전 배치

5월 19일 런던에서 개최된 'Code with Claude' 행사는 앤스로픽(Anthropic)의 코딩 자동화 전략이 단순한 실험 단계를 넘어 실전 배치 단계로 진입했음을 보여준다. 주목할 점은 이번 행사가 구글의 I/O 행사와 같은 날 진행되었다는 사실이다. 앤스로픽은 지난 2월 Claude 4.6과 4월 Claude 4.7 모델을 연달아 출시하며 기술적 기반을 다졌다. 반면 작년 이 시점의 Claude 4가 제한적인 코딩 능력을 보이며 보조적인 도구에 머물렀다면, 최근의 업데이트 버전들은 개발자가 작업을 완전히 위임할 수 있을 정도의 실효성을 확보했다. 이러한 모델 업데이트의 연속성은 단순한 수치 향상이 아니라 개발자가 체감하는 제어권의 이동을 의미한다.

실제 기업들의 도입 사례는 이러한 성능 향상을 뒷받침한다. 스포티파이(Spotify, 글로벌 음악 스트리밍 서비스)와 딜리버리 히어로(Delivery Hero, 글로벌 음식 배달 플랫폼)는 이미 Claude Code를 내부 개발 프로세스에 통합해 운용 중이며, 행사에서는 이를 통해 소프트웨어 개발 팀을 어떻게 재편했는지에 대한 구체적인 방법론을 공유했다. 그러나 더 주목해야 할 지점은 러버블(Lovable), 베이스44(Base44), 먼데이닷컴(Monday.com)과 같은 스타트업들의 움직임이다. 이들은 이른바 바이브 코딩(Vibe-coding, 엄격한 설계나 상세한 명세서보다 AI와의 상호작용과 직관적인 흐름에 의존해 앱을 개발하는 방식) 기반의 애플리케이션을 구축하며 개발 패러다임의 변화를 가속하고 있다. 이는 코딩의 진입장벽이 낮아지는 동시에 개발의 중심축이 구현에서 조율로 옮겨가고 있음을 보여준다.

앤스로픽 내부의 적용 사례는 더욱 극단적이다. 제레미 해드필드(Jeremy Hadfield) 엔지니어는 앤스로픽 내부 소프트웨어의 대부분을 Claude가 직접 작성했다고 밝혔다. 특히 Claude Code 자체의 코드 역시 Claude가 작성했다는 점은 모델의 자기 개선 가능성을 시사한다. 행사 현장에서 진행된 설문에서 참석자 상당수가 사람이 코드를 전혀 읽지 않은 상태로 풀 리퀘스트(Pull Request, 수정된 코드를 메인 코드 저장소에 반영하기 전 검토를 요청하는 단계)를 승인하고 배포했다는 사실은 시사하는 바가 크다. 질문을 받은 개발자들이 긴장 섞인 웃음을 터뜨리면서도 손을 내린 장면은, 이미 현장에서 인간의 검토라는 전통적인 안전장치가 생략되고 있음을 방증한다. 이는 개발자의 역할이 작성자에서 검토자로, 더 나아가 검토조차 생략하는 자동화 단계로 빠르게 이동하고 있다는 실증적 데이터다.

'드림(Dreaming)' 기능: AI가 스스로 학습하는 메모리 구조

개발자가 코드 작성의 주도권을 AI에 넘기는 과정에서 가장 큰 병목은 맥락의 단절이다. 기존의 코딩 에이전트는 매번 새로운 세션이 시작될 때마다 작업 환경의 제약 사항이나 과거의 오류 이력을 다시 학습해야 했다. 앤스로픽이 도입한 드림(Dreaming)은 이러한 비효율을 해결하기 위해 고안된 메모리 관리 시스템이다. 이 기능은 에이전트가 특정 작업 수행 과정에서 얻은 유용한 정보를 별도의 노트(Notes) 형태로 기록하고 저장하는 방식을 취한다. 이렇게 축적된 데이터는 후속 에이전트가 동일한 코드 베이스를 다룰 때 즉각적으로 참조된다. 결과적으로 이전 작업자가 겪었던 오류를 반복하지 않고, 작업의 맥락을 빠르게 파악하여 전체적인 개발 속도를 상향 평준화하는 구조를 갖췄다.

드림의 핵심은 정보의 단순 저장을 넘어선 통합적 분석에 있다. 시스템은 저장된 방대한 노트들을 주기적으로 읽어 들여 패턴을 파악하고, 서로 다른 작업 간에 발생하는 공통적인 이슈를 식별해낸다. 이는 개별 에이전트가 파편화된 지식을 갖는 것을 방지하고, 전체 에이전트 군집이 하나의 거대한 코드 베이스 지능을 공유하게 만드는 기반이 된다. 이러한 메모리 구조는 인간 개발자가 일일이 지시 사항을 업데이트하지 않아도 AI가 스스로 작업 환경의 변화를 인지하고 최적화된 대응 방안을 도출하도록 돕는다.

이러한 자율성의 이면에는 자기 프롬프팅(Self-prompting)이라는 새로운 작동 원리가 자리 잡고 있다. 앤스로픽은 개발 환경의 기본값을 인간의 프롬프트에 의존하는 방식에서 Claude가 스스로에게 질문을 던지는 방식으로 전환했다. 이는 인간이 매번 명령어를 입력하는 대신, AI가 목표 달성을 위해 필요한 하위 태스크를 스스로 정의하고 실행하는 자율적 루프를 의미한다. 자율 수정 프로세스 또한 이 맥락에서 작동한다. 에러 메시지가 인간에게 노출되기 전, Claude는 스스로 테스트와 수정을 반복하며 코드를 검증한다. 즉, '인간의 검토'라는 전통적인 단계를 AI 내부의 '자기 테스트'로 대체하여, 인간이 개입할 여지를 최소화하고 AI가 스스로 완성도를 높이도록 유도하는 것이 이 시스템의 실질적인 목표다.

Claude 4에서 4.7로: '보조 도구'에서 '미들급 엔지니어'로의 진화

개발자가 직접 프롬프트를 입력해 코드를 생성하고 오류를 수정하던 방식은 작년의 Claude 4까지의 표준이었다. 당시의 모델은 코딩 능력을 보유하고 있었으나 그 범위와 정확도 면에서 제한적인 보조 도구에 가까웠다. 반면 올해 2월과 4월에 출시된 Claude 4.6과 4.7은 스스로 오류를 체크하고 수정하는 자동화 수준에 도달했다. 주목할 점은 작업의 기본 전제가 인간의 프롬프트 입력에서 AI의 자율적 프롬프트 생성으로 전환되었다는 사실이다. 앤스로픽의 Claude Code 책임자인 보리스 체르니(Boris Cherny)는 이제 기본 설정이 인간이 Claude에게 요청하는 것이 아니라 Claude가 스스로에게 요청하는 구조로 바뀌었다고 설명한다. 이는 인간이 에러 메시지를 확인하고 수정 방향을 제시하는 단계조차 생략하고 AI가 테스트와 수정을 반복하며 결과물을 완성하는 구조를 지향한다.

이러한 기술적 진보는 개발자의 역할 정의를 근본적으로 바꾼다. 앤스로픽의 엔지니어링 리드인 케이틀린 레세(Katelyn Lesse)는 현재 Claude의 코딩 능력을 미들급 엔지니어 수준으로 정의했다. 이는 단순한 코드 조각 생성을 넘어 전체적인 구현 과정을 자율적으로 수행할 수 있음을 의미한다. 그러나 모든 영역이 자동화된 것은 아니다. 인간 엔지니어는 여전히 시스템의 전체적인 설계와 고난도의 트러블슈팅이라는 핵심 영역에 집중해야 한다. 반면 실제 코드를 작성하고 구현하는 반복적인 작업은 AI가 전담하는 구조로 빠르게 전환되고 있다. 전문가 수준의 엔지니어가 설계도를 그리고 복잡한 문제를 해결하면 미들급 수준의 AI가 이를 실제 코드로 구현하는 분업 체계가 정착되는 과정이다.

자율적 문제 해결 능력의 핵심은 최근 도입된 드리밍(dreaming) 기능에서 찾을 수 있다. Claude Code 에이전트는 작업 과정에서 스스로 노트를 작성해 특정 과업에 대한 유용한 정보를 기록하고 저장한다. 이후 다른 코딩 에이전트가 동일한 코드에 투입될 때 이 노트를 참조하여 이전의 오류를 학습하고 빠르게 적응한다. 주목할 점은 드리밍 시스템이 이러한 개별 노트들을 읽고 정보를 통합하여 서로 다른 작업 간의 공통된 패턴과 문제를 식별한다는 것이다. 이론적으로 이 과정은 Claude Code가 특정 코드베이스에 대한 이해도를 높여 시간이 흐를수록 해당 환경에 최적화된 성능을 내게 만든다. 인간의 개입 없이 스스로 학습하고 최적화하는 루프가 형성되면서 단순 도구를 넘어선 엔지니어링 주체로서의 성격이 강해지고 있다.

생산성 역설: 코드 리뷰 부하와 보안 취약성 문제

개발자가 작성한 코드를 검토하고 반영하는 풀 리퀘스트(Pull Request, 코드 변경 사항을 메인 저장소에 합치기 전 요청하는 단계) 과정에서 심각한 병목 현상이 관찰된다. 앤스로픽의 Claude Code 같은 자동화 도구가 코드를 생성하는 속도는 비약적으로 빨라졌으나, 이를 검증하고 승인하는 인간의 인지 속도는 변함이 없기 때문이다. 레딧(개발자 커뮤니티)과 해커 뉴스(개발자 커뮤니티) 등 주요 개발자 커뮤니티에서는 AI가 쏟아내는 과도한 양의 코드를 리뷰하는 작업이 오히려 실무자의 업무 부하를 가중시킨다는 불만이 지속적으로 제기된다. 생성된 코드를 정밀하게 읽지 않고 그대로 배포하는 사례가 늘고 있다는 점은 더욱 위험하다. 반면 생산성 지표만을 쫓는 관리자들은 AI 도입을 통한 코드 생산량 증대를 강요하며, 이는 결과적으로 검토되지 않은 코드의 누적으로 인한 기술 부채를 심화시킨다.

AI 의존도 심화에 따른 개발자 개개인의 숙련도 저하는 장기적인 인적 리스크로 이어진다. 단순 구현 작업을 AI에 전적으로 위임하면서 복잡한 논리 구조를 설계하거나 하드웨어 레벨의 최적화를 수행하는 코딩 능력이 하락하고 있다는 우려가 현실화되고 있다. 주목할 점은 AI가 생성한 코드의 외형적 완결성과 실제 보안성 사이의 괴리다. AI는 문법적으로 결함이 없는 매끄러운 코드를 출력하지만, 내부적으로는 보안 취약점을 포함한 안전하지 않은 패턴을 생성할 가능성이 상존한다. 이러한 취약점이 적절한 인간의 검토 없이 소프트웨어에 통합될 경우, 전체 시스템의 보안 리스크는 증폭될 수밖에 없다. 이는 자동화가 제공하는 단기적인 속도 이득이 보안 사고 대응이라는 막대한 사후 비용으로 전환될 수 있음을 시사한다.

이러한 생산성 역설은 AI 도구를 직접 개발한 앤스로픽 내부에서도 동일하게 나타난다. 앤스로픽의 기술 매니저들은 팀원들이 AI를 활용해 쏟아내는 방대한 양의 코드를 추적하고 관리하는 과정에서 극심한 피로감을 토로하고 있다. 개발 주기가 단축된 만큼 관리자가 검토해야 할 코드의 절대량이 기하급수적으로 증가했으며, 이는 시간 관리의 효율성을 저해하는 요소가 된다. 그러나 기업들은 여전히 AI가 스스로 프롬프트를 생성하고 오류를 수정하는 완전 자동화를 지향하고 있다. 인간의 개입을 최소화하는 방향으로 도구가 진화할수록 초기 개발 속도는 가속화되겠으나, 시스템의 설계 의도를 파악하고 유지보수할 수 있는 인간 전문가의 입지는 좁아진다. 결국 검토 단계의 생략은 단기적 성과를 높이지만, 장기적으로는 소프트웨어의 안정성과 지속 가능성을 위협하는 구조적 결함이 된다.

한국 AI 실무 환경에 던지는 시사점: '코드 작성'의 종말

개발자가 직접 IDE(통합 개발 환경)에서 코드를 한 줄씩 타이핑하는 행위는 이미 실무 현장에서 퇴색하고 있다. 스탠퍼드(Stanford) 2026 AI 인덱스 보고서는 AI의 기술 발전 속도가 인간의 적응 능력을 상회하고 있음을 명확히 지적한다. 이러한 격차는 한국의 개발 문화에도 예외 없이 적용된다. 과거에는 복잡한 알고리즘을 설계하고 문법적 오류를 수정하는 것이 엔지니어의 핵심 역량이었으나, 이제는 AI가 생성한 결과물을 검증하고 전체 시스템의 워크플로우를 설계하는 능력이 생존을 결정짓는 척도가 되었다. 단순히 코드를 생산하는 속도는 더 이상 경쟁 우위가 될 수 없다.

실무 현장에서의 변화는 더욱 구체적이다. 이제 엔지니어링의 정의는 '구현'에서 '오케스트레이션'으로 이동했다. AI 에이전트가 코드를 작성하고 스스로 오류를 수정하며 테스트를 반복하는 '드림(Dreaming)'과 같은 기술이 보편화되면서, 개발자는 코드의 행간을 채우는 작업에서 벗어나 AI가 도출한 결과물의 취약점을 식별하고 아키텍처의 안정성을 확보하는 '코드 리뷰어'이자 '시스템 설계자'로 재편되고 있다. 이는 한국 기업들이 그간 고수해 온 '빠른 개발(Fast-paced development)' 문화를 근본적으로 뒤흔드는 요소다. AI가 짠 코드를 검증 없이 제품에 반영할 경우 발생할 수 있는 보안 취약점과 유지보수 비용은 고스란히 관리자의 몫이 되기 때문이다.

결국 한국의 개발 조직은 AI가 작성한 코드의 품질을 보증하는 검증 프로세스 구축에 사활을 걸어야 한다. AI가 더 많은 코드를 작성할수록, 인간은 그 코드가 비즈니스 로직에 부합하는지, 잠재적인 보안 위협은 없는지를 판단하는 고도의 통찰력을 발휘해야 한다. 코드 작성 능력이 하향 평준화되는 상황에서, AI 에이전트의 워크플로우를 설계하고 그 결과물을 제어하는 능력은 대체 불가능한 핵심 경쟁력으로 자리 잡을 것이다. 도구의 연결 방식이 바뀌고 자동화의 범위가 확장될수록, 실무자는 AI를 부리는 '오케스트레이터'로서의 정체성을 강화해야 한다. 기술의 속도에 매몰되지 않고, 그 기술이 생산한 결과물을 통제하는 주도권이야말로 현재 한국 실무 환경이 직면한 가장 시급한 과제다.