에이전트는 기능이 아니라 스택으로 판다

AI 에이전트 경쟁의 진짜 전선은 모델 성능이 아니라 배포·운영·복구 스택이다. ITBench-AA 50% 미달, swyx의 Agent Labs 테제, 한국 SI 플랫폼 동시 출시가 같은 신호를 보내고 있다.

김생근 AI 에이전트 강사·컨설턴트 2026년 5월 29일

agent-business-modelAI-PM에이전트

swyx가 이번 주 X에 이렇게 썼습니다.

“자본 흐름이 모델 단일 차원에서 에이전트 오케스트레이션·운영 차원으로 분기되고 있다. Agent Labs는 Model Labs의 보완 축이 아니라, 다음 경쟁의 주소지다.”

같은 날, IBM과 AA Research가 공동으로 HuggingFace에 올린 ITBench-AA 결과가 있었습니다. 프론티어 모델 전부가 기업형 IT 자동화 과제에서 평균 50% 미만을 기록했습니다.

저는 이 두 신호가 같은 말을 하고 있다고 봅니다.

에이전트 경쟁의 다음 무대는 더 좋은 모델이 아닙니다. 스택입니다.

모델만으로는 왜 안 되는가

ITBench-AA가 보여준 건 모델 성능의 한계가 아닙니다. 스택 없는 모델의 한계입니다.

기업형 IT 자동화 과제는 단순 Q&A가 아닙니다. 티켓 분류, SLA 트리거, 인시던트 복구, 시스템 간 권한 위임 — 이 작업들은 모델이 “정답”을 내는 것이 아니라, 올바른 시점에 올바른 시스템에 올바른 방식으로 “실행”해야 합니다.

모델의 IQ는 필요조건입니다. 충분조건이 아닙니다. GPT-5급 모델이 있어도 다음이 없으면 실패합니다.

어떤 도구를 언제 쓸 수 있는가 (Tool Registry & Versioning)
중간에 막히면 어떻게 복구하는가 (Error Recovery & Checkpointing)
인간 승인이 필요한 순간을 어떻게 감지하는가 (Human-in-the-loop Gate)
실행 결과를 어떻게 추적하고 피드백으로 되돌리는가 (Observability & Feedback Loop)

이 네 가지가 스택입니다. 그리고 대부분의 에이전트 데모에는 이것이 없습니다.

벤치마크는 질문에 잘 답하는 모델을 고릅니다. 기업 고객은 장애가 났을 때 빠르게 복구하고 비용을 예측할 수 있는 시스템을 삽니다. 두 선택 기준이 근본적으로 다릅니다.

한국 시장이 먼저 움직였다

이 흐름을 가장 빠르게 포착한 것은 한국 SI 기업들입니다.

LG CNS가 이번 주 AI 에이전트 통합 플랫폼을 출시했습니다. 모델 API 래퍼가 아닙니다. 개발-운영-비용 최적화를 하나의 플랫폼에 묶은 것입니다. 발표 자료에 나온 문장은 이렇습니다: “구축은 어려운데 운영·비용까지.” 이 말 자체가 시장 인식입니다.

NHN 클라우드는 FactoryX 브랜드를 공개했습니다. GPU 인프라 + 운영 환경 + AI 서비스 실행을 단일 제품으로 패키징했습니다. 모델 호출이 아니라 운영 환경 + 인프라 패키지라는 포지셔닝입니다.

두 회사가 같은 주에 거의 동일한 구조의 제품을 냈습니다. 이것은 우연이 아닙니다. 기업 고객이 요구하는 것이 달라졌기 때문입니다.

고객은 이제 “Claude 4.7을 어떻게 붙이나요?”를 묻지 않습니다. 대신 이렇게 묻습니다.

“에이전트가 오작동하면 누가 고치나요?”
“비용이 갑자기 튀면 어떻게 통제하나요?”
“감사 요청이 오면 에이전트의 판단 근거를 어떻게 설명하나요?”
“새 버전으로 업데이트할 때 기존 워크플로가 망가지지 않게 어떻게 보장하나요?”

이 질문들에 답하는 것이 스택입니다. 답하지 못하면 데모로 끝납니다.

Salesforce가 주는 역설적 증거

글로벌 시장에서도 같은 패턴이 반복됩니다.

Salesforce는 Agentforce를 출시하면서 “AI 에이전트 기업”으로 포지셔닝을 바꿨습니다. 그런데 FY27 Q1 가이던스가 시장 기대를 밑돌았습니다. 분석가들이 반복해서 묻는 질문은 하나입니다: “Agentforce가 실제로 매출에 얼마나 기여하고 있나?”

이 질문의 의미를 생각해봅니다.

Salesforce가 판 것은 에이전트 기능입니다. 고객사가 실제로 필요한 것은 에이전트가 안정적으로 돌아가는 운영 환경입니다. 기능은 데모에서 인상적입니다. 스택은 갱신 계약에서 차이를 냅니다.

Kris Lovejoy(IBM Security 부문)는 이렇게 정리했습니다. “에이전트 스타트업이 엔터프라이즈에 진입하지 못하는 가장 큰 이유는 ITSM 관문이 아닙니다. 설정·컨텍스트·인적 오류를 관리하는 운영 레이어가 없기 때문입니다.”

에이전트 비즈니스의 실제 구매 결정권자는 CTO가 아닙니다. 운영팀장입니다. 그리고 운영팀장이 묻는 질문은 벤치마크 점수가 아닙니다.

스택의 3개 레이어

에이전트 스택을 구체적으로 세 레이어로 나눠봅니다.

레이어 1: 실행 인프라 (Execution Infrastructure)

VM·컨테이너 격리, 도구 등록과 버전 관리, 토큰 예산과 한도 통제가 여기 포함됩니다. 이것이 없으면 에이전트는 개발 환경에서만 작동합니다. 프로덕션 배포 즉시 비용이 예측 불가능해지고, 한 에이전트의 실수가 다른 에이전트에 전파됩니다.

레이어 2: 관측과 복구 (Observability & Recovery)

실행 trace 기록, 실패 감지와 알림, 체크포인트와 재시작 로직이 여기 속합니다. 이것이 없으면 에이전트가 왜 실패했는지 알 수 없습니다. Datadog의 Bits AI가 MTTR(평균 복구 시간)을 90% 줄인 방식이 바로 이 레이어입니다.

레이어 3: 피드백 루프 (Feedback Loop)

실행 결과를 프롬프트와 도구 개선으로 되돌리고, 사용자 수정사항을 다음 실행에 반영하고, 품질 지표로 모델 라우팅을 결정하는 구조입니다. 이것이 없으면 에이전트는 배포 시점에 고정됩니다. 6개월이 지나도 같은 실수를 반복합니다.

LG CNS와 NHN FactoryX가 이번 주 출시한 플랫폼은 이 세 레이어를 단일 패키지로 묶은 것입니다. 모델을 파는 게 아니라 스택을 파는 것입니다.

PM이 바꿔야 할 질문

에이전트 제품을 만들 때 팀이 자주 하는 질문을 두 종류로 나눕니다.

기능 질문 (Feature Questions)

“어떤 모델이 성능이 가장 좋나요?”
“프롬프트를 어떻게 최적화하나요?”
“어떤 외부 도구를 붙일 수 있나요?”

스택 질문 (Stack Questions)

“에이전트가 실패했을 때 얼마나 빠르게 복구되나요?”
“운영 비용이 갑자기 5배 뛰면 어떻게 통제하나요?”
“에이전트의 판단 근거를 감사 요청 시 추적할 수 있나요?”
“새 버전으로 업데이트할 때 기존 사용자 플로우를 어떻게 보호하나요?”

기능 질문을 잘 다루는 팀은 데모를 잘 만듭니다. 스택 질문을 잘 다루는 팀은 B2B 계약을 유지합니다.

그리고 지금 대부분의 에이전트 제품 팀은 기능 질문에만 집중하고 있습니다.

자본도 이미 알아챘다

swyx의 “Agent Labs” 테제는 자본 시장 관점에서 나왔습니다. 실제 최근 흐름을 보면 이 방향이 보입니다.

Fireworks AI(추론 인프라 서비스)는 $5.5B에서 $15B 밸류 논의로 3배 가까이 올랐습니다. Cognition AI(에이전트 풀스택)는 $26B 밸류로 $1B를 조달했습니다. 한국 1Q 벤처투자는 3.3조 원으로 역대 최고를 기록했는데, 이 중 AI 인프라와 운영 플랫폼 비중이 늘어나고 있습니다.

모델 자체보다 모델을 안정적으로 돌리고 운영하는 스택에 자본이 쏠리고 있습니다.

GeekNews에도 이번 주 이런 글이 올라왔습니다. “외주 인력 + LocalAI 조합이 곧 프론티어 랩보다 경제적이다.” 핵심은 최고 성능이 아니라 총비용 구조라는 겁니다. 모델 하나보다 스택 설계가 비용의 차이를 만든다는 말입니다.

결론: 에이전트의 해자는 스택에 있다

에이전트 시대의 진짜 해자(moat)는 더 좋은 LLM을 쓰는 것이 아닙니다.

에이전트가 실패했을 때 더 빠르게 복구하고, 비용을 예측 가능하게 통제하고, 결과를 설명할 수 있는 운영 레이어에 있습니다.

기능은 경쟁자도 6개월이면 따라잡습니다. 스택은 조직 신뢰, 반복 운영 경험, 고객사 워크플로 통합이 얽혀 있어서 따라잡기 어렵습니다.

Salesforce가 기능을 팔다가 수익화에서 삐걱거리는 사이, LG CNS와 NHN이 스택을 묶어서 출시한 이유가 여기 있습니다.

당신의 에이전트 제품은 지금 무엇을 팔고 있나요? 기능인가요, 스택인가요?

만약 아직 기능 위주라면, 고객이 다음에 던질 질문은 이미 정해져 있습니다: “이게 장애 났을 때 어떻게 되나요?”