OpenAI가 못 먹는 AI 앱 시장, '시스템 오브 워크'가 해자다

AI 앱 레이어는 모델 성능 중심의 '노란 벽돌길'과 스캐폴딩

새로운 기능이 추가될 때마다 공들여 만든 서비스가 하루아침에 쓸모없어질까 봐 걱정하는 창업자들이 많다. AI 앱 레이어는 모델 성능만으로 품질이 결정되는 노란 벽돌길과, 모델 위의 스캐폴딩(scaffolding, 모델이 제대로 작동하도록 받쳐주는 보조 구조물)이 신뢰성을 결정하는 오즈의 나머지 영역으로 나뉜다.

노란 벽돌길은 글쓰기나 코드 생성, 이미지 생성처럼 모델 지능이 올라가면 서비스 품질도 함께 좋아지는 수평적 영역이다. OpenAI나 Anthropic 같은 대형 랩들이 막대한 자원을 쏟아붓는 경로다. 반면 오즈의 나머지 영역은 산업별 특화 서비스나 다단계 승인 절차가 필요한 워크플로 영역이다. 여기서는 모델 자체보다 이를 둘러싼 정교한 설계가 컴플라이언스(compliance, 법규 준수)와 신뢰도를 결정하며, 스타트업이 고객을 소유할 기회가 된다.

버티컬 AI의 진짜 경쟁력은 처음 만든 자동화 흐름이 아니라, 실제 사용 과정에서 쌓이는 운영 기억(operating memory) 루프에 있다. 에스컬레이션(escalation, 상위 단계로 문제 전달) 시그널이나 예외 처리, 인간의 수정 사항이 런북(runbook, 운영 매뉴얼)의 누락 지점을 찾아내는 신호가 되어 워크플로가 진화한다. 모델의 지능보다 워크플로 자체에 지능이 쌓이는 구조라, 실제 현장에서 오래 작동하며 데이터를 쌓지 않으면 학습이 불가능한 강력한 해자가 된다.

플랫폼은 OpenAI GPT-3와 통합하여 사용할 수 있다

한 명의 개발자가 챗봇의 두뇌를 고르는 순간이다. Yellow.ai(AI 고객 서비스 플랫폼)는 OpenAI GPT-3(텍스트 생성 인공지능)를 연결해 챗봇을 구축하는 기능을 제공한다. 사용자가 쿼리를 입력하면 GPT-3의 텍스트 완성 모델이 이를 분석해 적절한 답변을 생성해 전달하는 방식이다. 이를 통해 챗봇 사용자는 모델의 텍스트 생성 능력을 활용해 원하는 정보를 빠르게 얻을 수 있다. 다만 이 통합 기능은 현재 베타 단계에 있어 테스트와 개선을 거치는 중이며, 사용 환경에 따라 일부 제약이나 문제가 발생할 수 있다.

단순한 대화를 넘어 정확한 가격 안내나 서비스 가이드처럼 정교한 답변이 필요한 비즈니스 사례에서는 커스텀 모델을 활용한다. OpenAI에서 특정 용도에 맞게 모델을 직접 학습시킨 뒤 이를 Yellow.ai 플랫폼에 연결해 챗봇을 맞춤 설정하는 구조다. 기업은 이 과정을 통해 챗봇이 내놓는 답변의 정확도를 높이고 각자의 비즈니스 요구사항에 맞게 최적화할 수 있다.

전문적인 이미지를 요청했는데 가장자리가 버터 같은 노란색으로 덮여 나오는 장면이 포착됐다. GPT-4o의 이미지 생성 결과물에서 공통적으로 나타나는 따뜻한 색조 현상이다. 사람들은 이런 노란 톤을 기본 생성물의 특징이자 게으른 AI의 징후로 인식하며 품질이 낮다고 평가한다. 이 때문에 OpenAI 커뮤니티에서는 DALL·E 3(이미지 생성 AI)의 지원 중단이 매우 큰 실수가 될 것이라며 강하게 반대하고 있다. 작업물이 돋보이려면 기본 생성물이 아닌 실제 사진처럼 보여야 한다는 주장이다.

기술이 실제로 작동하는 방식

공들여 프롬프트를 짰는데 결과물이 온통 누런색으로 나와 당황한 크리에이터들이 많다. GPT-4o 이미지 생성 모델은 결과물이 생동감이 없고 소위 'piss yellow'라고 불리는 특유의 노란색 톤이 나타나는 경향이 있다. 이를 해결하기 위해 등장한 UnYellowGPT(AI 이미지 색상 복원 도구)는 이미지의 노란색을 걷어내는 지우개 역할을 하며 이미 수천 명의 사용자가 색상을 복원하고 있다. 빛의 삼원색인 빨강, 초록, 파랑의 비율을 조정하는 RGB 스케일링을 한 번 적용하면 따뜻한 노란색조가 사라지고 실제와 같은 파란색과 중립 톤이 살아난다.

작업 효율을 높이려면 도구를 연결하는 통로를 정확히 이해해야 한다. 우리가 쓰는 ChatGPT나 4o는 그 자체로 API(소프트웨어 간 통신 규칙)가 아니며, 실제 기능은 Image-1이라는 API가 수행한다. Image-1은 DALL·E 3와 달리 이미지 입력과 편집 기능을 모두 지원한다는 기술적 장점이 있다. 단순한 생성에서 나아가 기존 이미지를 수정하는 작업이 가능해지는 지점이다.

특정 산업에 특화된 버티컬 AI 기업들은 단일 모델에 매달리지 않고 전략적으로 모델을 배치한다. 작업 성격에 따라 가장 적합한 모델을 골라 보내는 라우팅과 여러 모델을 조합하는 앙상블 전략을 쓴다. 모델이 업데이트될 때마다 성능 테스트인 eval을 다시 실행한다. 고객의 특수한 사례에 맞춰 프롬프트를 재보정하고, 서비스 중단 없이 기능을 배포하는 롤아웃 과정을 거친다. 대형 연구소가 일일이 챙기지 못하는 번거로운 관리 업무를 흡수해 고객에게 최적의 지능을 제공하는 구조다.

현장에서 달라지는 비용과 판단

링크드인 프로필 사진이 지나치게 매끄럽고 특유의 노란색 색조를 띠어 AI가 만든 것이 아니냐는 의심을 받는 사례가 늘고 있다. 단순한 보정 작업의 결과일 가능성도 있지만, 이는 OpenAI 모델의 시그니처와 같다. 챗GPT 내에서 쓰는 이미지 생성 도구인 DALL·E 3는 4o 모델보다 검열 수준이 훨씬 높지만, 여전히 활용되지 않은 잠재력이 남아 있다. 이런 색감 편향은 코드 단 한 줄의 RGB 스케일링(빛의 삼원색인 빨강, 초록, 파랑의 강도를 조절하는 기법)만 도입하면 모든 픽셀의 색상을 실제와 가깝게 복원할 수 있다.

이런 기술적 특성을 이용해 배경 정보 없이 LLM(거대언어모델, 대규모 데이터를 학습해 인간처럼 대화하는 AI)만으로 활동하며 AI 뱅크시가 되려는 시도까지 등장했다. 모델의 성능만으로는 해결되지 않는 미세한 질감과 색감의 차이가 오히려 AI 생성물임을 알리는 표식이 된 셈이다.

결국 AI 앱의 강력한 방어선은 모델 성능이 아니라 산업별 규제 복잡성을 흡수하는 컨트롤 플레인(권한 관리와 로그 기록을 총괄하는 제어 계층) 구축에 있다. 법률 분야의 FRCP(연방민사소송규칙)나 의료법인 HIPAA(미국 의료정보 보호법), 금융권의 SEC(미국 증권거래위원회)와 FINRA(금융산업규제기구), 그리고 주 단위의 보험 규제 같은 까다로운 가드레일을 계약상 책임지는 파트너가 되는 방식이다. 권한 관리와 감사, 에이전트 활동 로깅을 처리하는 이 체계는 단순한 수평적 도구가 제공하기 어려운 실질적인 효용을 만든다.

버티컬 AI 앱은 공개 웹에 없는 암묵적 산업 규범과 현장

신입 사원에게 업무를 가르칠 때 매뉴얼에 없는 우리 회사만의 암묵적인 규칙을 설명하느라 진을 뺀 경험이 있을 것이다. 버티컬 AI 앱(특정 산업 특화 인공지능 앱)은 공개 웹에 존재하지 않는 문서화되지 않은 표준이나 현장 종사자의 머릿속에만 있는 부족 지식(tribal knowledge)을 수집해 데이터 플라이휠(데이터가 쌓일수록 성능이 좋아지는 선순환 구조)을 만든다. 여러 고객사에서 공통으로 나타나는 문제의 변형 패턴을 누적하는 across-customer 방식과 특정 회사의 고유한 경험칙, 결정 이유, 암묵적 예외를 학습하는 within-customer 방식이 겹쳐서 작동한다. 이렇게 쌓인 도메인 특화 데이터는 단순한 에이전트 복제로는 구현할 수 없는 파인튜닝(특정 목적에 맞게 모델을 추가 학습시키는 것)의 핵심 연료가 된다.

작업의 난이도에 따라 사용하는 모델을 다르게 배치해 비용을 최적화하는 전략도 핵심이다. 가장 어려운 작업에는 프런티어 모델(최첨단 고성능 모델)을 쓰고, 대부분의 일반 작업에는 mid-tier 모델을 배치한다. 여기에 자격을 갖춘 부분에는 소형 커스텀 모델이나 파인튜닝 모델을 배치하는 티어별 라우팅(작업 성격에 따라 모델을 배분하는 경로 설정)을 수행한다. Yellow.ai(AI 기반 고객 경험 플랫폼)는 DaVinci, Curie, Babbage, Ada 같은 다양한 모델과 사용자가 직접 정의한 커스텀 언어 모델을 연결해 이 구조를 지원한다. 이는 워크플로가 실제로 요구하는 지능 수준에 대해 최저 비용을 찾아내 판매하는 전략이다.

OpenAI가 기능을 추가할 때마다 내 서비스가 쓸모없어질까 봐 걱정하는 창업자들이 많다. 하지만 모델 성능만으로 해결되는 노란 벽돌길과 달리, 복잡한 뼈대를 세워야 하는 오즈의 나머지 영역은 모델이 쉽게 침범하지 못한다.

산업별 암묵적 지식과 HIPAA나 SEC 같은 규제를 반영한 데이터 선순환 구조와 모델 라우팅 설계가 그 핵심이다. 결국 내 서비스가 단순한 도구인지, 실제 업무가 일어나는 시스템인지가 생존의 기준이 된다.