코드 생성 금지, 스탠퍼드가 정의한 '가르치는 AI'의 기준

발표에서 확인된 핵심 사실

코드를 짤 때 AI가 제안한 정답을 그대로 복사해 붙여넣으며 정말 실력이 늘고 있다고 확신할 수 있을까. 스탠퍼드(Stanford)의 CS336 과정은 AI 에이전트를 정답 제공자가 아닌 학습 보조 도구로 정의한다. AI는 단순한 코드 생성이 아니라 설명과 안내, 피드백을 통해 학생의 학습을 돕되 과제를 대신 완료해서는 안 된다. 정답을 즉시 제공하는 대신 학습자가 스스로 논리를 구성하고 오류를 수정하도록 유도하는 교육적 장치를 마련한다.

이 과정은 파이썬(Python, 프로그래밍 언어)과 파이토치(PyTorch, 머신러닝 프레임워크) 코드를 직접 작성하는 구현 중심의 설계를 따른다. 학생들은 제한된 가이드라인 하에 상당량의 코드를 직접 작성해야 하며, AI 어시스턴스는 이러한 실제 코딩 경험을 저해하지 않고 보존하는 역할을 수행한다. 해당 지침은 챗GPT(ChatGPT), 클로드 코드(Claude Code), 깃허브 코파일럿(GitHub Copilot), 커서(Cursor) 등 현재 시장에서 쓰이는 다양한 AI 코딩 어시스턴트가 준수해야 할 기준이 된다.

챗GPT 에이전트는 GUI를 통해 웹과 상호작용하는 시각적 브라우저와 추론 기반 쿼리를 위한 텍스트 기반 브라우저, 터미널, 그리고 직접적인 API 액세스 기능을 갖춘 도구 세트를 탑재한다. 웹상에서 찾기 어려운 정보를 탐색하는 브라우징 에이전트의 능력은 올해 초 발표한 브라우즈컴프(BrowseComp, 웹 탐색 벤치마크)를 통해 측정한다. 데이터 연결 단계에서는 애저 오픈AI(Azure OpenAI, 클라우드 AI 서비스)를 기반으로 조직의 정책을 준수하며 답변을 생성하는 구조를 취한다.

기존 방식과 달라진 지점

실리콘밸리에서 18개월 동안 사용자를 대신해 회의 일정을 예약하거나 애플리케이션 코드를 작성하는 자율형 AI 비서, 즉 AI 에이전트(AI agents) 개념이 주목받았다. 2025년에는 OpenAI의 Operator와 Microsoft의 Copilot Studio가 각각 출시되며 에이전트를 구현하는 두 가지 서로 다른 철학이 구체적으로 등장했다. 이는 단순한 텍스트 생성을 넘어 사용자를 대신해 행동하는 자율성을 확보하는 방향으로 진화한 결과다.

Microsoft는 Copilot Studio에서 Azure OpenAI Service(마이크로소프트의 클라우드 기반 AI 서비스)를 통해 데이터를 연결하고 생성형 답변을 제공하는 체계를 구축했다. 에이전트는 생성형 답변 노드(generative answers node)를 통해 Azure 리소스를 호출하고 이를 기반으로 답변을 생성하며, Microsoft Foundry 내에서 데이터 소스와 AI 모델 간의 연결 설정을 수행한다. 특히 O365와 Power Platform(비즈니스 프로세스 자동화 도구)이 전체 서비스를 래핑(wrap)하여 배포 채널과 관계없이 연결성과 보안을 일괄 관리한다.

이와 달리 ChatGPT 에이전트는 ChatGPT connectors를 활용해 Gmail이나 Github 같은 외부 앱과 직접 연결하는 방식을 사용한다. 사용자가 특정 앱을 연결하면 에이전트가 프롬프트와 밀접하게 관련된 정보를 외부 앱에서 찾아 응답에 즉시 활용하는 구조다. 클라우드 인프라 기반의 데이터 연결과 외부 서비스 커넥터 중심의 접근 방식이 각각의 제품 철학을 결정짓는다.

ChatGPT agent를 공개했다

생산성 도구의 비용 구조는 단순 인터페이스에서 자율적 수행 단계로 넘어갈 때 바뀐다. OpenAI가 공개한 ChatGPT agent는 Operator와 deep research(심층 연구 도구)의 자연스러운 진화 형태로, 사용자를 위해 단독으로 작동하거나 사용자와 함께 협력하는 에이전트다. 이는 단순한 챗봇을 넘어 사용자의 목적을 달성하기 위해 직접 행동하는 단계로 진입했음을 보여준다.

2024년에는 AI 코딩 에이전트인 Devin과 브라우저 기반 액션 도구 Project Mariner, Anthropic의 computer use agent(컴퓨터 제어 에이전트) 같은 실험적 출시물들이 에이전트의 미래를 미리 보여주었다. 이와 대조적으로 Microsoft의 Copilot Studio는 정해진 스크립트를 엄격히 준수하며 자신이 할 수 있는 일과 없는 일을 정확히 인지하는 훈련된 주니어 사무원과 같은 특성을 가진다. 통제된 규칙에 따라 작동하는 방식에서 차이가 발생한다.

Copilot Studio 에이전트를 내부 데이터에 연결하려면 'Deploy to'를 선택한 후 'A new Microsoft Copilot Studio bot'을 지정하는 경로를 거친다. 이때 Copilot Studio는 일반적인 OpenAI 서비스 API와 일치하도록 사양이 지정된 OpenAI 엔드포인트를 사용한다. 표준 API 규격을 맞춤으로써 기존 서비스와의 호환성을 확보하는 구조다.

모델의 기능이 향상됨에 따라 Preparedness Framework(준비 태세 프레임워크) 기준의 고위험 생물학적 및 화학적 능력(High Biological and Chemical capabilities)으로 분류했다. OpenAI는 이에 따른 위험을 관리하기 위해 관련 안전 장치(safeguards)를 활성화하여 배포한다. 에이전트의 자율성이 높아질수록 안전 조치의 적용 범위가 넓어진다.

현장에서 달라지는 비용과 판단

코드 한 줄을 복사해 붙여넣는 순간, 개발자가 고민해야 할 로직은 사라진다. 스탠퍼드 대학의 CS336(컴퓨터 과학 336 과정)은 AI 도구를 저수준 프로그래밍 도움과 고수준 개념 질문에만 한정해 사용한다. 과제 문제를 직접 해결하라는 요청이 들어오면 AI는 구현을 거부한다. 대신 설명이나 디버깅 안내, 코드 리뷰, 혹은 복사-붙여넣기가 불가능한 고수준 개요를 제공하는 방식으로 전환한다. 정답 제공과 가이드 제공을 엄격히 구분하는 프롬프트 설계 기준이 주니어 개발자 온보딩의 새로운 기준이 된다.

초기 AI 에이전트들은 한 파일의 버그를 수정하다 다른 파일 세 개를 망가뜨리는 등 컨텍스트 유지에 실패했다. 결제 폼을 처리하지 못해 항공권 예약을 완료하지 못하는 도구 활용 능력의 한계도 뚜렷했다. 현재는 이러한 한계를 넘어 물류 및 공급망 관리 분야에서 멀티 에이전트 시스템(여러 AI 에이전트가 협업하는 체계)이 활용된다. 자율 에이전트들이 재고 관리와 배송 추적, 자원 할당 작업을 동적으로 조율하며 복잡한 업무 프로세스를 직접 수행한다. 이러한 조율 능력은 단순 작업 수행을 넘어 시스템 전체의 최적화를 가능하게 한다.

도구의 구현 철학에 따라 제어권의 범위가 갈린다. OpenAI의 Operator는 마이크로소프트의 통제된 접근 방식과 대비되는 오픈 에이전트 성격을 띤다. Azure OpenAI Service(마이크로소프트의 클라우드 기반 AI 서비스)에서 에이전트를 생성하면 Conversation Boosting(대화 품질 향상) 시스템 토픽이 자동으로 생성되어 제공된다. Foundry(데이터 관리 플랫폼)에서는 전용 OpenAI 서비스 리소스보다 프로젝트에서 제공하는 OpenAI 엔드포인트를 사용하는 패턴을 선호하며 인프라 효율을 높인다.

생산성과 창의성을 높이는 AI 기반 어시스턴트이다

단순 반복 작업에 쏟는 시간이 줄어들면 실질적인 업무 성과는 달라진다. Microsoft 365 Copilot(마이크로소프트의 AI 생산성 도구)은 실시간 지원과 제안, 상황별 안내를 제공해 사용자가 더 생산적이고 창의적으로 작업하도록 돕는 AI 기반 어시스턴트로 작동한다. 도구가 단순한 답변을 넘어 작업자가 처한 상황에 맞는 맥락을 정확히 짚어낼 때 업무 효율이 올라간다.

시스템 내부에서는 Azure OpenAI(마이크로소프트의 클라우드 AI 서비스) 모델과 Azure AI Search(데이터 검색 및 인덱싱 서비스)가 데이터를 인덱싱하고 이를 기반으로 응답을 제공하는 구조를 취한다. Microsoft Copilot Studio(맞춤형 AI 에이전트 제작 플랫폼) 역시 추론을 위해 관리형 OpenAI 서비스를 사용한다. 다만 사용자는 모델 추론을 뒷받침하는 이 서비스가 순수하게 관리되는 블랙박스 형태로 제공된다는 점을 확인한다.

리테일 기업들은 웹사이트와 모바일 앱에 AI 기반 챗봇을 배치해 제품 추천과 예약, 고객 문의 사항을 처리하며 고객 지원 프로세스를 자동화한다. CoSupport AI(AI 에이전트 분석 서비스)는 OpenAI Agent Builder(OpenAI의 에이전트 구축 도구), Vertex AI(구글의 기업용 AI 플랫폼), Microsoft Copilot Studio 세 가지 도구를 심층 비교하는 분석 콘텐츠를 제공한다. 에이전틱 AI와 생성 모델, LLM 분야에서 7년 넘게 집필해 온 연구자 Viktoriia Yadoshchuk는 이러한 최신 트렌드를 밀착 추적하며 분석한다.

GitHub Copilot이나 Cursor로 코드를 작성하며 원리 이해 없이 복사-붙여넣기를 반복하는 경험은 개발자의 성장을 저해한다. AI 에이전트는 과제를 대신 수행하는 비서가 아니라, 설명과 피드백을 통해 사용자가 스스로 답을 찾게 돕는 교육 보조 도구로 정의되어야 한다.

Causal Mask의 소프트맥스 적용 시점을 점검하거나 BPE 토크나이저의 GPU 활용도를 분석하게 만드는 구체적인 디버깅 유도 방식이 이에 해당한다. 주니어 개발자 온보딩이나 AI 튜터링 시스템 설계 시 정답 제공과 가이드 제공을 엄격히 구분하는 프롬프트 기준이 곧 조직의 기술적 자생력을 결정한다.