Browser Harness: LLM이 브라우저 작업을 직접 완료하는 도구

이번 주 깃허브 트렌드에 Browser Harness라는 저장소가 갑자기 올라왔다. 개발자들이 브라우저 자동화를 위해 Playwright나 Puppeteer 같은 프레임워크를 쓰는 대신, LLM(대규모 언어 모델)이 직접 브라우저를 조작하게 해주는 도구다. 저장소 설명에는 "당신은 다시는 브라우저를 사용하지 않을 것"이라는 문장이 적혀 있다.

Browser Harness는 CDP 위에 구축된 경량 도구다

연구팀이 공개한 Browser Harness는 Chrome DevTools Protocol(CDP, 크롬 개발자 도구 프로토콜) 위에 직접 구축되었다. 핵심 구조는 단순하다. 하나의 웹소켓(WebSocket, 실시간 양방향 통신 채널)을 크롬에 연결하고, 그 사이에 아무것도 끼우지 않는다. LLM이 작업 중간에 필요한 코드를 직접 작성하고 실행한다. 프레임워크, 레시피, 레일(미리 정해진 경로)이 없다. 저장소는 GitHub에서 확인할 수 있다.

사용 방법은 간단하다. Claude Code나 Codex에 다음 명령어를 붙여넣으면 된다.

bash

npx browser-harness

페이지가 나타나면 체크박스를 클릭해 에이전트가 브라우저에 연결하도록 허용한다. 예제 작업은 `domain-skills/` 디렉토리에서 확인할 수 있다. 이 도구는 은밀한 작업(stealth), 하위 에이전트(sub-agents), 또는 배포(deployment)에 유용하다고 설명되어 있다.

예전에는 사람이 직접 붙잡고 보던 작업이다

예전에는 브라우저 자동화를 위해 Playwright나 Puppeteer 같은 프레임워크를 설치하고, 선택자(selector)를 일일이 지정해야 했다. 요소가 바뀌면 스크립트가 깨져서 사람이 다시 고쳐야 했다. Browser Harness는 이 접근을 뒤집는다. LLM이 작업 중간에 필요한 선택자와 흐름을 직접 학습하고, 깨지면 스스로 복구(self-healing)한다. 개발자는 더 이상 모든 엣지 케이스를 미리 정의할 필요가 없다.

무료 티어는 3개의 동시 브라우저, 프록시(proxy, 중계 서버), 캡차(captcha, 자동 입력 방지 문자) 해결 등을 지원한다. 카드 등록이 필요 없다. 저장소는 PR과 개선을 환영하며, 가장 좋은 기여 방법은 자주 사용하는 사이트나 작업(LinkedIn 아웃리치, Amazon 주문, 비용 신고 등)에 대한 도메인 스킬(domain skill)을 `domain-skills/` 아래에 추가하는 것이다. 각 스킬은 에이전트가 다시 찾아야 할 선택자, 흐름, 엣지 케이스를 가르친다.

개발자가 바로 체감하는 변화는 브라우저 자동화의 진입 장벽이 낮아졌다는 점이다. 기존에는 복잡한 설정과 유지보수가 필요했지만, 이제는 명령어 하나로 LLM이 직접 작업을 수행한다. 그러나 아직 초기 단계이며, 실제 업무에 적용하려면 도메인 스킬의 축적이 필요하다. 저장소는 "The Bitter Lesson of Agent Harnesses"라는 문서를 통해 기존 에이전트 하네스(harness, 연결 도구)의 한계를 비판하고, 이 도구가 어떻게 다른지 설명한다.

Browser Harness는 LLM이 브라우저를 직접 조작하는 방식을 제시했지만, 실제 생산성은 도메인 스킬의 양과 질에 달려 있다.

Browser Harness: LLM이 브라우저 작업을 직접 완료하는 도구

Browser Harness는 CDP 위에 구축된 경량 도구다

예전에는 사람이 직접 붙잡고 보던 작업이다

관련 기사