세무사 피드백을 자율 개선 루프로 구현한 OpenAI의 Tax AI

100%.

이 수치는 세무 신고서의 모든 필드가 인간의 수정 없이 완벽하게 작성된 상태, 즉 '100% 정확도'를 의미한다. 복잡한 세법과 파편화된 증빙 서류가 얽힌 세무 환경에서 이 수치는 마치 수험생이 단 한 문제의 실수 없이 고난도 시험에서 만점을 받는 것과 같다. 그런데 OpenAI는 단순히 이 수치에 도달하는 것을 넘어, 시스템이 스스로 이 목표를 향해 학습하고 진화하는 구조를 설계했다.

보통의 AI 서비스는 출시 후 사용자가 오류를 발견하면 엔지니어가 이를 보고받고, 프롬프트를 수정하거나 데이터를 보강하는 수동적인 개선 과정을 거친다. 이 과정에서 수주가 소요되며, 현장의 미묘한 엣지 케이스는 엔지니어의 해석 과정에서 누락되기 일쑤다. 하지만 OpenAI와 Thrive Holdings가 Crete(세무 회계 네트워크)와 협력해 만든 Tax AI는 다르다. 실무자가 잘못된 값을 수정하는 그 순간의 행위 자체를 구조화된 신호로 포착하고, 이를 Codex(OpenAI의 코드 생성 모델)가 분석해 제품의 성능을 자동으로 끌어올리는 '자율 개선 루프'를 구현했다. 이는 AI가 단순한 도구를 넘어, 전문가의 암묵지를 실시간으로 흡수하는 엔지니어링 시스템으로 작동함을 보여준다.

7,000건의 신고서로 증명한 Tax AI의 실무 효율

복잡한 세무 신고서 한 건을 처리하기 위해 실무자가 수기로 데이터를 입력하는 데만 8시간이 소요되던 병목 현상이, 이제는 AI의 자동화 시스템으로 해결되고 있다. Crete 네트워크에 소속된 30개 이상의 회계 법인은 최근 세무 시즌 동안 총 7,000건의 1040 및 1041 양식 신고서를 처리하며 Tax AI의 실무적 효용을 입증했다. 과거에는 수천만 개의 문서를 대조하며 수작업으로 진행하던 데이터 추출과 계산 과정이 자동화된 결과, 세무 작성에 투입되는 시간은 이전 대비 약 3분의 1 수준으로 줄어들었다. 이는 단순한 속도 개선을 넘어, 실무자가 고객과의 상담이나 고도의 판단이 필요한 업무에 더 많은 시간을 할애할 수 있는 환경을 조성했다.

Tax AI는 초기 도입 단계에서 W-2나 1099 같은 정형화된 서류를 처리하는 수준에 머물렀으나, 시즌이 진행됨에 따라 K-1 서류나 복잡한 스케줄이 포함된 고난도 신고서까지 영역을 확장했다. 시스템은 최대 97%의 초안 작성 정확도를 달성하며 실무자의 검토 부담을 획기적으로 낮췄고, 이를 통해 전체 처리량(Throughput)은 약 50% 증가했다. 특히 주목할 점은 이 시스템이 단순히 고정된 알고리즘으로 작동하는 것이 아니라, 현장의 피드백을 실시간으로 반영하며 스스로 진화하는 구조를 갖췄다는 사실이다. 도입 3개월 만에 초기 버전보다 측정 가능한 수준의 성능 향상을 보인 것은, 현장 실무자의 수정 사항이 곧바로 시스템의 개선 데이터로 전환되는 선순환 구조가 정착되었음을 보여준다.

이러한 성과는 세무 실무자가 마주하는 데이터의 복잡성을 AI가 어떻게 구조화하고 학습하는지에 달려 있다. 시스템은 신고서 작성 과정에서 발생하는 모든 개입을 구조화된 데이터로 기록하며, 실무자가 수정한 값을 통해 AI가 기존에 놓쳤던 매핑 오류나 추출 실패 사례를 식별한다. 결과적으로 Tax AI는 단순한 도구의 역할을 넘어, 실무자의 전문 지식을 학습하여 매번 더 어려운 케이스를 처리할 수 있는 능동적인 협업 파트너로 자리 잡았다. 7,000건의 실무 데이터가 증명하는 것은 AI가 세무 현장의 고질적인 시간 소모 문제를 해결하고, 실무자의 판단력을 보조하는 실질적인 생산성 도구로 기능하고 있다는 점이다.

전문가 피드백을 코드로 바꾸는 '자율 개선 3대 기둥'

런칭 초기 75% 이상의 필드 정확도를 기록한 보고서는 전체의 25% 수준이었다. 6주 만에 이 수치가 86%로 급등한 배경에는 실무자의 수정 행위를 데이터로 치환하는 구조가 있다. 기존 방식은 엔지니어가 실패 사례를 일일이 분석해 프롬프트를 수정하는 수동 루프였다. 이번 시스템은 전문가 피드백(Expert Practitioner Feedback) 단계를 도입해 실무자가 값을 바꾼 시점의 전후 맥락을 구조화된 데이터로 즉시 캡처한다. 단순한 오답 수정을 넘어 AI가 제안한 값과 실무자가 최종 확정한 값의 차이를 정밀하게 기록해 개선의 직접적인 근거로 활용한다.

데이터의 흐름을 추적하는 생산 트레이스(Production Traces)는 실패 지점을 정확히 짚어낸다. 임대 부동산 소득을 보고하는 Schedule E 사례가 대표적이다. 수기 메모, 이메일, 스프레드시트 같은 정제되지 않은 소스 파일이 입력되면 시스템은 이를 인용 필드로 정규화하고 다시 세무 엔진의 개념으로 매핑한다. 이 과정에서 발생하는 모든 중간 단계의 이력을 보존한다. 추출 단계에서 누락이 발생했는지, 혹은 매핑 단계에서 논리 오류가 났는지 트레이스를 통해 분리한다. 실무자의 수정 사항이 개인의 선호도 차이인지 아니면 시스템의 기술적 결함인지 판별하는 기준을 여기서 세운다.

마지막 단계는 맞춤형 평가(Eval)를 통해 Codex(코드 생성 AI 모델)가 직접 엔지니어링 태스크를 수행하는 반복 루프(Codex-driven Iteration Loop)다. 트레이스에서 반복되는 실패 패턴을 발견하면 이를 Codex가 해결해야 할 구체적인 평가 타겟으로 변환한다. 예를 들어 시스템이 공정 임대 일수(fair rental days) 필드를 지속적으로 놓치고 실무자가 이를 계속 수정하는 패턴이 발견되면, 해당 사례들을 모아 평가 세트를 구성한다. Codex는 이 평가 세트와 소스 패키지를 분석해 코드를 수정하고 다시 검증하는 과정을 반복한다. 엔지니어가 문제를 정의하고 수정하는 시간을 줄이고 AI가 스스로 성능을 끌어올리는 자율 개선 구조를 완성했다.

수동 패치에서 자율 개선으로: 정확도 25%에서 86%까지의 도약

실제 서비스에 배포한 LLM이 왜 벤치마크 점수만큼 작동하지 않을까? Tax AI가 처음 출시되었을 때 필드 정확도 75% 이상을 달성한 서류는 전체의 25%에 불과했다. 초기 단계의 시스템은 W-2나 1099 같은 단순한 서류 처리 중심의 작업만 수행하며 낮은 정확도를 보였다. 세무사들이 다루는 수만 건의 세금 신고서와 수백만 개의 증빙 서류는 실험실의 정제된 데이터와 완전히 다른 양상을 띤다. 특히 중대형 규모의 신고서는 데이터 입력에만 건당 8시간이 소요될 만큼 복잡하며, 지저분한 데이터 소스와 전년도 서류가 뒤섞여 있다. 단순한 프롬프트 최적화만으로는 현장의 무질서한 데이터가 만드는 간극을 메울 수 없다.

배포 6주 만에 75% 이상의 정확도를 달성한 비율은 86%로 급증했다. 기존의 개발 방식은 엔지니어가 수동으로 엣지 케이스를 찾고, 실패 원인을 분석한 뒤, 프롬프트를 조금씩 수정해 다시 배포하는 느린 사이클을 반복했다. Tax AI는 이 과정을 생산 트레이스(Production Traces, 입력부터 최종 출력까지의 구조화된 이력) 기반의 자동화 체계로 바꿨다. 시스템이 사용자의 수정 사항을 실시간으로 포착해 이를 구조화된 신호로 변환하고, 개선이 필요한 지점을 정확히 짚어내는 평가 타겟을 스스로 생성한다. 개발자가 무엇을 고칠지 고민하는 탐색 시간을 줄이고, 시스템이 제시한 명확한 실패 지점을 해결하는 실행 시간으로 리소스를 전환했다.

시스템의 처리 범위는 K-1이나 임대 부동산 스케줄 같은 고난도 엣지 케이스로 확장했다. 임대 부동산 소득 보고를 위해서는 수기 메모, 이메일, 스프레드시트 등 서로 다른 형식의 여러 소스 파일을 대조해 값을 일치시키는 정교한 작업이 필요하다. Tax AI는 세무사가 최종 제출 전 수정한 값을 단순한 오류 수정이 아니라 구조화된 학습 데이터로 기록한다. 시스템은 추출된 값과 원본 소스 사이의 근거를 보존하며, 세무사의 수정 행위가 추출 실패인지 혹은 단순한 선호도 차이인지를 구분해 기록한다. 이렇게 수집된 반복적 실패 패턴은 Codex(코덱스, OpenAI의 코드 생성 모델)가 즉시 실행할 수 있는 구체적인 엔지니어링 과제로 변환된다. 특정 필드의 누락이 반복되면 이를 평가 세트로 묶어 Codex가 코드를 수정하고 검증하는 자율 개선 루프를 가동해 정확도를 끌어올린다.

단순 자동화를 넘어 '전문가 지식의 코드화'가 가져올 변화

실무 환경에서 AI가 예상치 못한 방식으로 작동할 때, 개발팀은 보통 어떻게 대응할까? Tax AI의 초기 단계에서는 세무사가 시스템 오류를 직접 수정했지만, 그 과정의 맥락은 기록되지 않았다. 단순한 추출 실수인지, 매핑 문제인지, 혹은 사용자의 개인적 선호인지 구분하기 위해 엔지니어가 일일이 데이터를 전수 조사하며 수주일을 보냈다. OpenAI는 이 비효율을 해결하기 위해 전문가의 수정 행위 자체를 구조화된 데이터로 캡처하는 방식을 도입했다. 세무사가 AI가 제안한 값을 어떻게 변경했고 최종적으로 어떤 값이 신고서에 반영되었는지를 모두 기록해 시스템 개선을 위한 직접적인 신호로 활용한다. 단순한 결과값의 비교가 아니라 수정의 전 과정을 데이터화함으로써 전문가의 암묵지를 시스템이 이해할 수 있는 형태로 변환한다.

이렇게 쌓인 데이터는 단순한 로그를 넘어 구체적인 평가 타겟(Eval Target)으로 변환된다. 시스템은 반복되는 수정 패턴을 분석해 일시적인 노이즈와 실제 제품 결함을 정밀하게 분리한다. 예를 들어 임대 부동산 소득을 보고하는 Schedule E 작성 과정에서 공정 임대 일수(fair rental days) 필드가 지속적으로 누락되지만, 세무사가 이를 매번 수동으로 입력하는 패턴이 발견되면 이를 해결해야 할 명확한 과제로 정의한다. 이 과정에서 해당 사례의 소스 문서와 정답 세트를 묶어 Codex(코드 생성 AI 모델)가 분석하고 해결해야 할 평가 세트로 구성한다. 모호한 성능 개선 요청 대신 수치화된 목표와 구체적인 실패 사례를 제시해 AI가 도달해야 할 지점을 명확히 설정한다. 이는 전문가의 피드백이 즉시 시스템의 성능 측정 도구로 전환되는 구조다.

Codex는 이렇게 정의된 평가 세트를 분석해 코드 수준의 수정을 직접 수행한다. 소스 파일에서 데이터가 누락된 지점과 세무사의 정답 사이의 간극을 추적해 추출 로직을 수정하거나 매핑 프로세스를 최적화한다. 과거에는 엔지니어가 수주에 걸쳐 수천 개의 엣지 케이스를 분석하고 수동으로 수정 사항을 반영하던 작업을 자동화된 루프로 대체한 결과다. 개발자는 더 이상 개별 오류를 찾는 단순 반복 작업에 시간을 쓰지 않고, 시스템이 스스로 찾아낸 결함과 수정 제안을 검토하고 승인하는 고차원적인 설계 역할로 전환한다. 도메인 전문가의 수정 행위가 즉시 평가 지표가 되고, 이것이 다시 코드 수정으로 이어지는 구조를 통해 개발 주기와 제품 품질을 동시에 확보한다. 실무자의 지식이 코드에 직접 주입되는 이 루프는 AI 제품의 성숙도를 높이는 가장 빠른 경로가 된다.

한국 세무·회계 AI 도입 시 '전문가 루프' 설계의 시사점

한국의 세무 현장에서는 증빙 서류의 형태가 제각각이고 법령 해석이 매년 바뀐다. 단순한 RAG(검색 증강 생성, 외부 지식을 검색해 답변을 생성하는 기술) 구조만으로는 이 복잡성을 해결할 수 없다. 세무사가 AI가 제안한 값을 직접 수정하는 행위가 발생할 때, 그 수정 전후의 차이값이 가장 정교한 학습 데이터가 된다. 실무자가 엑셀이나 PDF에서 값을 찾아 AI의 오답을 고치는 순간, 그 행위 자체가 법전과 실무 지침 사이에 존재하는 실무 노하우를 데이터로 변환하는 과정이 된다. 정제된 정답셋을 미리 만드는 것보다 실무자의 수정 행위를 실시간으로 캡처하는 것이 훨씬 효율적이다. 이 수정 데이터는 단순한 오류 정정이 아니라 한국 세법의 특수성을 반영한 최적의 정답지 역할을 한다.

실무자가 AI의 제안을 검토하고 값을 바꾸는 모든 과정은 구조화된 로그로 남아야 한다. 입력 데이터가 AI의 제안으로 이어지고, 이를 전문가가 수정하여 최종 제출하는 전 과정을 보존하는 트레이스 인프라를 구축한다. 단순히 최종 결과물만 저장하는 방식은 AI가 왜 틀렸는지, 전문가가 어떤 근거로 수정했는지에 대한 맥락을 소실시킨다. AI가 제안한 값과 전문가가 수정한 최종값의 델타를 추적하는 시스템을 통해 실패 지점을 명확히 식별한다. 원본 서류에서 추출된 값, 세무 엔진에 매핑된 값, 그리고 세무사가 최종 확정한 값의 경로를 모두 기록한다. 이러한 트레이스 보존은 사후 수정 단계를 단순한 종료 지점이 아니라 지속적인 학습 사이클의 시작점으로 바꾼다.

세무사가 오류를 발견해 메신저로 알리고 엔지니어가 수동으로 프롬프트를 수정하는 방식은 확장성이 없다. 전문가와 엔지니어 사이의 소통 비용을 줄이는 평가 자동화 루프가 상용화의 핵심이다. Codex(코드 생성 모델)를 단순한 코딩 보조 도구가 아니라, 수집된 수정 트레이스를 분석해 평가 지표를 생성하고 실제 코드를 수정하는 실행 주체로 활용한다. 반복되는 수정 패턴을 자동으로 평가 타겟으로 전환하고, 이를 기반으로 Codex가 직접 개선안을 도출해 적용하는 구조를 설계한다. 예를 들어 특정 항목의 추출 누락이 반복되면 시스템이 이를 자동으로 감지해 평가셋에 추가하고 Codex가 해당 로직을 수정하게 만든다. 이 루프가 작동하면 전문가의 피드백이 엔지니어의 개입 없이도 코드와 모델의 성능 향상으로 즉각 연결된다.