모델 성능이 아니다: 도메인 깊이 × 거버넌스가 버티컬 에이전트의 경쟁 축이다

채널코퍼레이션 알프는 월 100만 건 상담의 80%를 사람 없이 해결한다. 이 수치는 모델 선택이 아니라 11년 도메인 데이터와 룰 가드레일로 만들어졌다. 버티컬 에이전트의 진짜 경쟁은 지금 도메인 설계에서 벌어지고 있다.

김생근 AI 에이전트 강사·컨설턴트 2026년 5월 13일

버티컬에이전트AI제품설계에이전트PM

채널코퍼레이션의 AI 에이전트 ‘알프’는 매달 100만 건의 고객 상담을 처리합니다. 그중 80%는 사람이 개입하지 않고 해결됩니다.

이 수치를 처음 봤을 때 든 질문이 하나 있었습니다. “어떤 모델을 썼을까?” 틀린 질문입니다.

알프의 80% 해결률은 GPT-4o가 만들어낸 게 아닙니다. 11년간 실제 B2B SaaS 고객 상담에서 축적한 데이터와, 그 위에 얹은 룰 베이스 가드레일이 만들어낸 결과입니다. 모델은 이 구조 안에서 작동하는 하나의 부품입니다.

버티컬 에이전트의 경쟁은 지금 모델 벤치마크 점수에서 벌어지지 않습니다.

왜 아직도 “어떤 모델?” 질문을 하는가

AI 에이전트를 도입하려는 팀들이 가장 먼저 꺼내는 질문이 있습니다. “GPT-4o와 Claude Sonnet 중 어느 게 낫나요?” “Gemini 2.5 Pro가 더 저렴하니까 그걸로 할까요?”

틀린 질문은 아닙니다. 하지만 이 질문만 하는 팀은 경쟁에서 이기기 어렵습니다.

범용 모델의 성능 격차는 이미 좁아졌습니다. MMLU, HumanEval, 주요 추론 벤치마크에서 GPT-4o와 Claude Sonnet의 점수 차이는 수 퍼센트 이내입니다. 이 차이가 프로덕션에서 80% 해결률과 40% 해결률의 차이를 만들지는 않습니다.

그 차이를 만드는 것은 두 가지입니다. 도메인 깊이와 거버넌스.

이것은 기술 문제가 아닙니다. 설계 문제입니다.

도메인 깊이: 알프가 11년을 쌓은 이유

채널코퍼레이션이 알프를 공개한 건 최근이지만, 알프의 경쟁력은 2013년부터 시작됩니다. 11년간 실제 B2B SaaS 고객 상담을 운영하면서 쌓아온 데이터가 진입장벽입니다.

도메인 깊이는 세 가지로 구성됩니다.

첫째, 도메인 언어 체계. 범용 LLM은 “채널톡 블럭 설정”, “티켓 에스컬레이션 조건”, “API 웹훅 연동 오류” 같은 맥락을 처음부터 모릅니다. 수년간의 실제 상담 로그 없이는, 아무리 좋은 모델도 고객 질문을 맥락 없이 처리합니다. 잘못된 답변 → 낮은 해결률 → 이탈. 이 순서는 예측 가능합니다.

둘째, 실패 패턴 데이터. 같은 기능에 대해 고객이 어떤 방식으로 오해하는지, 어떤 질문이 반복되는지, 어느 시점에 사람이 개입해야 해결되는지. 이 패턴은 실운영 데이터 없이 설계할 수 없습니다. 알프는 이 데이터를 11년치로 갖고 있습니다. 오늘 시작하는 팀이 따라잡으려면 최소 2~3년이 필요합니다.

셋째, 워크플로우 통합. 상담 에이전트가 티켓 시스템, CRM, 내부 플레이북과 실시간으로 연결되어 있어야 합니다. 이 연결이 없으면 에이전트는 “답변 생성기”에 머뭅니다. 알프는 채널코퍼레이션 자체 플랫폼 안에서 이 통합이 완성되어 있습니다.

이 세 가지가 없는 상태에서 모델을 교체하는 것은, 엔진만 바꾸고 연료와 도로는 그대로 두는 것과 같습니다.

거버넌스: 신뢰가 진입장벽이 된다

도메인 깊이만으로는 부족합니다. 특히 B2B 에이전트에서 기업 고객이 에이전트를 지속적으로 신뢰하게 만드는 것은 거버넌스 설계입니다.

알프는 LLM 위에 룰 베이스 가드레일을 명시적으로 얹습니다. 이 가드레일은 에이전트가 할 수 있는 것과 할 수 없는 것의 경계를 선언합니다. 법무 관련 질문은 사람에게 에스컬레이션. 계약 해지 요청은 특정 팀으로 라우팅. 민감 정보가 포함된 응답은 자동 검수 후 발송.

이 가드레일이 없으면 에이전트가 잘못된 답변을 낼 때 브랜드가 다칩니다. 가드레일이 있으면 에이전트가 틀릴 수 있는 영역을 미리 인간 검토 루프로 넘깁니다. 100%를 자동화하려다 전체를 잃는 것보다, 80%를 자동화하고 나머지를 안전하게 처리하는 쪽이 실제 고객 신뢰를 만듭니다.

같은 시기 Anthropic이 공개한 금융 에이전트 10종을 보면 이 패턴이 글로벌로 확장되는 것이 보입니다. Anthropic은 Claude라는 범용 모델을 갖고 있지만, 금융 도메인에서 경쟁하기 위해 별도의 금융 에이전트 패키지를 만들었습니다. Excel 통합, PPT 자동화, 규제 준수 체크리스트가 포함된 형태로 오픈소스로 공개했습니다 (github.com/anthropics/financial-services).

“범용 모델 + 금융 도메인 패키지”가 필요했다는 것은, 모델 단독으로는 금융 버티컬에서 충분하지 않다는 것을 Anthropic 스스로 인정한 것입니다.

한국 버티컬 신호 세 곳에서 같은 결론

서로 무관한 세 곳에서 같은 패턴이 나타나고 있습니다.

마키나락스 × 국방과학연구소 ‘AI 참모 에이전트’: 14.6억 원 사업을 수주했습니다. 핵심은 “자사 AI OS ‘런웨이’ 기반”이라는 대목입니다. 범용 API를 그대로 붙인 게 아니라, 국방 무기체계 도메인에 맞게 설계된 운영 OS 위에서 에이전트가 작동합니다. 도메인 + 거버넌스 통합의 한국 군사 버전입니다.

인텔리빅스 × 모빌린트 ‘VIXA’: 국산 NPU 기반 영상분석 에이전트입니다. 클라우드 LLM을 쓰지 않습니다. 온프레미스 NPU에서 영상 판단과 행동까지 처리합니다. 국방·공공 안전 도메인에서 클라우드 종속이 허용되지 않기 때문에 나온 설계입니다. 거버넌스 요구사항이 아키텍처를 결정한 사례입니다. 모델 선택이 아키텍처를 결정한 게 아니라.

OncoAgent Zero-PHI: 의료 멀티에이전트입니다. LangGraph 기반으로, 환자 데이터를 단 하나도 외부로 보내지 않는 Zero-PHI 설계를 채택했습니다. AMD MI300X 온프레미스 추론 위에서 동작합니다. 의료 도메인에서 “HIPAA 준수”가 단순한 체크박스가 아니라, 아키텍처 전체를 강제하는 거버넌스 요구사항임을 보여줍니다.

세 곳에서 같은 결론이 나옵니다. 도메인 요구사항이 아키텍처를 결정한다. 모델이 아키텍처를 결정하는 게 아니라.

PM이 지금 해야 할 설계 결정

버티컬 에이전트 팀에서 PM이 가장 먼저 해야 할 것은 모델 선택이 아닙니다. 다음 세 가지 질문에 먼저 답해야 합니다.

1. 우리 도메인에서 데이터가 가장 풍부한 레이어는 어디인가?

알프는 상담 로그. 마키나락스는 작전 운용 데이터. OncoAgent는 임상 기록. 가장 많이 축적된 도메인 데이터가 있는 레이어에 에이전트를 먼저 붙여야 합니다. 데이터 없는 곳에 에이전트를 붙이면 범용 모델의 한계를 고스란히 받습니다. 도메인 데이터가 없다면, 에이전트를 붙이기 전에 데이터를 먼저 축적하는 것이 선행 과제입니다.

2. 에이전트가 틀렸을 때 어떤 일이 벌어지는가?

고객 상담 에이전트가 틀리면 → 재문의, 이탈. 금융 에이전트가 틀리면 → 컴플라이언스 위반, 과징금. 국방 에이전트가 틀리면 → 작전 실패 가능성. 실패 비용이 높을수록 가드레일 설계가 복잡해집니다.

실패 비용을 먼저 계산하십시오. 가드레일의 범위와 깊이가 거기서 나옵니다.

3. 인간 검토 루프를 어디에 둘 것인가?

모든 것을 자동화하려 하면 안 됩니다. 알프도 80%를 자동화하고 나머지 20%는 사람이 받습니다. 이 20%가 어떤 유형인지 분석하면 에이전트의 다음 개선 지점이 나옵니다. 인간 개입 데이터가 곧 에이전트 훈련 데이터입니다. 100% 자동화를 목표로 설계하는 것보다, 인간 루프를 데이터 수집 채널로 설계하는 팀이 더 빠르게 개선됩니다.

이 세 가지에 답하지 않은 채 모델 선택을 논의하는 팀은, 어떤 모델을 써도 성과를 내기 어렵습니다.

모델 전쟁은 도메인 전쟁으로 이동했다

Anthropic이 금융 에이전트 10종을 직접 패키징한 것, 마키나락스가 국방 도메인 OS를 자체 개발한 것, 채널코퍼레이션이 11년 상담 데이터를 무기로 삼은 것. 이 세 가지는 서로 다른 산업에서 나온 신호지만 같은 방향을 가리킵니다.

범용 모델 경쟁은 이미 상품화 단계에 진입하고 있습니다. GPT-4o든 Claude Sonnet이든 Gemini 2.5든, 일반적인 태스크에서는 충분히 사용 가능한 수준에 도달했습니다. 이 레이어에서 지속적인 경쟁 우위를 가져오기가 점점 어려워집니다.

다음 경쟁은 도메인 데이터 + 워크플로우 통합 + 거버넌스 설계입니다. 이것은 모델 회사가 대신 해줄 수 없습니다. 도메인을 이해하는 팀이 직접 설계해야 합니다.

버티컬 에이전트 PM의 역할이 “어떤 모델 API를 쓸까”에서 “어떤 도메인 레이어를 먼저 잠글까”로 이동한 이유가 여기 있습니다.

당신의 팀이 지금 쌓고 있는 도메인 데이터는 무엇입니까? 그리고 그 데이터로 에이전트의 어떤 가드레일을 만들 계획입니까?