이번 주, 서로 전혀 다른 다섯 명이 같은 결론에 도달했습니다.

안드레이 카르파시(Anthropic), 앤드루 응(DeepLearning.AI), 알렉스 앨버트(Anthropic), 얀 르쿤(Meta AI), 해리슨 체이스(LangChain). 이들은 같은 컨퍼런스에 있지도 않았고, 서로 조율하지도 않았습니다. 그런데 5월 셋째 주, 각자의 채널에서 거의 동일한 방향을 가리키는 메시지를 냈습니다.

에이전트의 진짜 경쟁력은 모델에서 나오지 않는다.

저는 이런 수렴 신호를 가볍게 보지 않습니다. 이 다섯 명이 동시에 같은 말을 한다면, 이것은 의견이 아니라 패턴입니다. AI 업계에서 “어떤 모델을 써야 하는가”를 두고 수백 시간이 소비되는 지금, 실제로 에이전트를 프로덕션에서 운영하는 사람들이 집중하는 곳이 어디인지를 봐야 합니다.


5개의 목소리, 하나의 방향

카르파시: “install.sh의 시대가 끝나갑니다.”

Anthropic Pre-training 팀 합류와 함께 던진 이 한 마디가 화제가 됐습니다. 에이전트의 능력을 패키지 설치 스크립트 속에 묻어두는 시대는 끝났다는 뜻입니다. 대신 LLM이 직접 읽고 실행할 수 있는 마크다운 파일로 지식과 절차를 구조화하는 것 — 이것이 “LLM-native knowledge base”의 요점입니다. 에이전트가 파이썬 패키지를 설치해야 어떤 작업을 할 수 있다면, 그것은 아직 LLM-native하지 않은 것입니다.

알렉스 앨버트(Anthropic): “model + harness + feedback + evals + personality = one system”

Anthropic에서 클로드 관계를 총괄하는 알렉스 앨버트는 명확하게 정의했습니다. 모델은 5개 구성요소 중 하나일 뿐입니다. 하네스(harness), 피드백 루프, 평가 시스템(evals), 페르소나 설계가 모델과 결합해야 비로소 하나의 시스템이 됩니다. 이 5개를 분리해서 보면 에이전트의 성능을 절대 설명할 수 없습니다.

앤드루 응: “self-eval iterate”

에이전트가 자신의 출력을 평가하고 반복 개선하는 루프를 만드는 것이 현재 AI 팀의 핵심 역량이라고 했습니다. 어떤 모델을 고를지가 아니라, 어떻게 평가 루프를 설계할지가 PM의 1차 과제입니다.

얀 르쿤(Meta): “open weight + harness”

오픈소스 모델이 상용 모델과 경쟁할 수 있는 이유는 하네스 때문입니다. 같은 모델이라도 하네스 설계가 달라지면 성능은 완전히 달라집니다. 모델보다 하네스가 더 큰 변수라는 말입니다.

해리슨 체이스(LangChain): “agent-scale infra rethink”

수백 개의 에이전트를 동시에 운영하면 병목은 모델 성능이 아닌 관측성과 인프라에서 나옵니다. 에이전트가 무엇을 하고 있는지 추적할 수 없다면 개선도 없습니다.


왜 모델이 덜 중요해지는가

이것은 단순한 이론이 아닙니다. 실제 프로덕션 데이터가 있습니다.

삼성전자 TV 앱스 팀은 200개국, 1500개 이상의 앱을 AWS Bedrock Agent Core 기반으로 전환해 운영 중입니다(AWS re:Invent, 2026-05). 이 규모에서 “GPT-5.5가 더 좋은가, Claude가 더 좋은가”는 실질적인 문제가 아닙니다. 에이전트가 어느 도구를 언제 호출하는지, 실패 시 어떻게 복구하는지, 비용이 어디서 발생하는지를 실시간으로 관측하고 제어하는 인프라가 문제가 됩니다.

100개의 에이전트를 운영하는 팀이 월 20억 토큰을 소비하면서 단 3명이 운영하는 사례도 있습니다(AI타임스, 2026-05). 이 팀에게 더 시급한 질문은 “어느 모델이 좋은가”가 아니라 “어느 에이전트가 토큰을 낭비하고 있는가”, “어느 루프가 끊어지고 있는가”입니다.

모델 간 성능 격차는 점점 좁아지고 있습니다. 반면 하네스 설계 역량의 격차는 벌어지고 있습니다. 이 교차가 지금 일어나고 있습니다.


4축으로 설계하는 에이전트 인프라

다섯 명의 수렴 결론을 정리하면 에이전트 경쟁력은 4개의 축으로 구분됩니다.

1. 파일화된 스킬 (File-based Skills)

카르파시의 핵심 통찰입니다. 에이전트의 능력을 코드나 설치 스크립트가 아니라, LLM이 읽을 수 있는 마크다운 파일로 추출하십시오.

# skill: 경쟁사 분석
## 언제 사용하는가
- 신규 제품 기획 직전
- 분기별 포지셔닝 리뷰 시

## 절차
1. 경쟁사 공식 사이트 3곳 조회
2. G2/Capterra 최신 리뷰 50개 분석
3. 가격·기능·포지셔닝 비교표 작성

## 출력 형식
마크다운 표 + 한 줄 결론

이 파일 하나가 어떤 에이전트에도 주입 가능한 재사용 스킬이 됩니다. 스킬이 파일로 관리되면, 버전 관리가 되고, 팀원 누구나 개선할 수 있고, 여러 에이전트 간 공유도 됩니다.

2. 하네스 (Harness)

알렉스 앨버트가 강조한 영역입니다. 하네스란 모델에게 무엇을 해야 하는지, 어떤 형식으로 답해야 하는지, 어디서 멈춰야 하는지를 알려주는 모든 설계의 총합입니다. CLAUDE.md, AGENTS.md, 시스템 프롬프트, 도구 정의가 모두 여기에 포함됩니다.

같은 Claude API를 써도 하네스 설계에 따라 결과물은 완전히 달라집니다. 오븐은 같아도 레시피에 따라 결과가 달라지는 것처럼. 그리고 레시피는 Anthropic이 만들어주지 않습니다. 여러분이 만들어야 합니다.

3. 평가 루프 (Evaluation Loop)

앤드루 응이 강조한 영역입니다. 에이전트를 배포한 뒤, 무엇을 개선해야 할지 어떻게 압니까? 평가 루프가 없으면 알 수 없습니다.

해리슨 체이스는 “production trace를 데이터 생성의 prior로 쓰는 것”이 핵심이라고 했습니다. 에이전트가 실제 운영 중 어디서 실패했는지를 로그로 남기고, 그 로그에서 새 테스트 케이스를 만드는 방식입니다.

실천 단계:

  • 매주 실패 케이스 20개 추출 → 평가 데이터셋에 추가
  • 새 모델·프롬프트 변경 시 이 데이터셋으로 회귀 검증
  • 평가 커버리지 비율을 팀 KPI로 설정

4. 관측성 인프라 (Observability)

해리슨 체이스의 문제 의식입니다. 에이전트가 무엇을 하고 있는지, 어디서 비용이 발생하는지, 어느 단계에서 루프가 끊기는지를 실시간으로 볼 수 없으면 운영은 불가능합니다.

Datadog이 Bits AI를 도입한 이후 보안 이벤트 대응률 98%, MTTR(평균 복구 시간) 90% 감소를 기록했습니다(Datadog, 2026-05). 이것은 더 좋은 모델로 바꾼 결과가 아닙니다. 무엇이 일어나고 있는지를 볼 수 있게 된 결과입니다.


PM이 먼저 물어야 할 것

다음 분기 AI 예산 회의에서 “어떤 모델을 써야 하는가”가 첫 번째 의제라면, 순서를 바꿔야 합니다.

더 먼저 물어야 할 것들이 있습니다:

  • 우리 팀의 스킬은 마크다운 파일로 추출되어 있는가?
  • AGENTS.md 또는 CLAUDE.md 같은 하네스 설계 문서가 존재하는가?
  • 에이전트 실패 케이스에서 자동으로 평가 데이터를 만드는 루프가 있는가?
  • 어제 운영된 에이전트의 토큰 비용과 실패율을 오늘 볼 수 있는가?

이 네 가지 중 하나라도 “아니오”라면, 모델 업그레이드보다 이것이 먼저입니다.

모델은 Anthropic과 OpenAI가 계속 개선해줍니다. 하네스·스킬·평가 루프·관측성 인프라는 여러분이 직접 만들어야 합니다. 그리고 이것이 쌓이면, 경쟁자가 더 좋은 모델로 바꿔도 따라잡기 어려운 구조가 됩니다.

기술은 점점 비슷해집니다. 남는 건 설계입니다.

다섯 명이 같은 주에 같은 결론을 냈다는 것은, 이 방향이 이제 더 이상 선택이 아님을 의미합니다.

당신의 에이전트 시스템에서 지금 가장 취약한 축은 어느 것입니까? 스킬, 하네스, 평가 루프, 관측성 중 하나를 꼽는다면?