에이전트는 이미 자신을 관찰하고 있다
Anthropic Dreaming, OpenAI Codex Chronicle, Spotify Studio — 서로 다른 세 곳에서 같은 신호가 나왔다. 에이전트 AI가 단순 답변을 넘어 자기 관찰·개선 루프를 내장하기 시작했다. PM이 지금 무엇을 설계해야 하는지를 짚는다.
이번 주 서로 전혀 다른 세 곳에서 같은 결론이 나왔습니다.
Anthropic은 내부 프로젝트 ‘Dreaming’을 통해 에이전트가 자신의 과거 행동과 결과를 메모리에 기록하고, 그 데이터로 멀티에이전트 협업 구조를 스스로 개선하는 루프를 공식 제품 레이어로 올리고 있습니다. OpenAI의 Codex Chronicle(내부명 ‘telepathy’)은 화면 위에서 일어나는 모든 행동을 상시 관찰해 컨텍스트를 자동 축적합니다. 매번 재설명하지 않아도 에이전트가 작업 흐름을 스스로 이해합니다. Spotify Labs가 공개한 Studio는 이메일·캘린더·웹 브라우저를 연결해 사용자의 하루 맥락을 읽고, 커스텀 보이스로 개인 팟캐스트를 합성해냅니다.
세 제품이 공통으로 가리키는 방향이 있습니다. 에이전트는 이제 답변 기계가 아닙니다. 자신의 행동을 관찰하고, 결과를 기억하고, 다음 행동을 조정하는 루프를 내장한 시스템입니다.
그리고 이 루프가 빅테크의 공식 제품으로 진입했다는 것은 — PM에게 설계 단위가 바뀌었다는 신호입니다.
왜 지금이 전환점인가
에이전트 AI의 초기 경쟁은 단순했습니다. 어느 모델이 더 정확한 답을 내느냐. 그러나 지금 OpenAI와 Anthropic이 벌이는 경쟁의 축은 이미 이동했습니다.
Anthropic이 Q2 매출 $10.9B를 기록하며 창사 최초로 흑자 전환에 성공한 이 분기에(Bloomberg, 2026-05-20), Claude의 미국 기업 AI 채택률은 34.4%로 ChatGPT의 32.3%를 처음 추월했습니다. 이 숫자가 나온 같은 시점에 Anthropic이 집중하고 있는 기술이 바로 ‘Dreaming’입니다. 단순 토큰 생성이 아니라, 에이전트가 자신이 수행한 작업의 결과를 메모리에 기록하고 그 데이터를 다음 에이전트 세대의 학습 입력으로 쓰는 구조입니다.
OpenAI도 같은 방향입니다. Codex Chronicle의 핵심은 에이전트가 화면 위에서 일어나는 모든 행동을 기록한다는 것입니다. 어제 어떤 탭을 열었는지, 어떤 코드 블록에 오래 머물렀는지, 어느 단계에서 되돌아갔는지. 이 관찰 데이터가 컨텍스트 창을 채우고, 에이전트는 사용자의 의도를 재학습합니다.
그리고 Spotify Studio는 이 흐름이 엔터프라이즈 도구를 넘어 소비자 제품으로 확산되는 신호입니다. 에이전트가 이메일과 캘린더를 연결해 내 하루의 맥락을 읽고, 그 맥락으로 개인화된 콘텐츠를 생성합니다. 20여 개국 리서치 프리뷰지만 패턴이 명확합니다. 에이전트의 관찰 대상이 이제 사용자의 행동 전체로 확장됐습니다.
PM 관점의 근본 질문: 루프가 없으면 에이전트가 아니다
저는 이 세 신호를 보면서 하나의 질문이 떠올랐습니다.
우리가 지금 설계하고 있는 에이전트에 루프가 있는가?
관찰 → 메모리 → 실행 → 피드백 → 관찰의 사이클. 이 루프 없이 에이전트를 배포하면, 우리가 만드는 것은 결국 더 비싼 챗봇입니다. 잘 포장된 if-else입니다.
Intuit이 이번 주 전체 인력의 17%, 약 3,000명을 감원하며 “AI를 제품 깊숙이 박아 넣기 위한 자원 이동”이라고 밝혔습니다(TechCrunch, 2026-05-20). 주목할 것은 감원 대상입니다. 콜센터, 문서 작성, 세무 상담. 이 직무들의 공통점은 입력 → 처리 → 출력의 1회성 사이클이라는 것입니다. Intuit이 대체하려는 것은 바로 그 패턴입니다.
반대로 Intuit이 강화하고 있는 것은 TurboTax와 QuickBooks의 개인화 루프입니다. 사용자가 어떤 세금 항목에서 실수하는지, 어느 단계에서 이탈하는지를 관찰하고, 다음 사용자의 경험을 자동으로 개선하는 구조. 이것이 AI가 조직 재편의 실질 기준이 된 모습입니다.
루프 설계 여부가 에이전트의 경쟁 단위가 됐습니다.
루프의 4가지 레이어
자기 개선 루프를 설계하려면 4개의 레이어를 명확히 분리해야 합니다.
1. 관찰 레이어 (Observation)
에이전트가 무엇을 보고 있는가. Codex Chronicle은 화면 전체를 봅니다. Spotify Studio는 이메일·캘린더·PDF를 봅니다. Anthropic Dreaming은 과거 작업의 결과물을 봅니다. 관찰 대상이 좁을수록 에이전트의 자기 개선 폭도 좁아집니다. PM이 첫 번째로 정의해야 할 것은 ‘우리 에이전트는 무엇을 관찰하는가’입니다.
2. 메모리 레이어 (Memory)
관찰한 것을 어떻게 저장하고 인출하는가. Anthropic Dreaming의 핵심 설계 결정은 메모리를 ‘스냅샷’이 아니라 ‘아웃컴’으로 저장한다는 것입니다. 어떤 입력이 들어왔는가가 아니라, 어떤 결과가 나왔는가를 기록합니다. 이 차이가 메모리를 단순 저장소에서 학습 소스로 바꿉니다.
# 에이전트 아웃컴 메모리 구조 예시
memory:
type: outcome
key: "task_2026-05-27_report_gen"
result: "success"
time_taken: "4m 32s"
tokens_used: 12400
user_feedback: "too_long"
next_run_hint: "compress_output: true"
에이전트가 다음 실행 시 이 파일을 읽으면, compress_output: true 힌트를 컨텍스트로 반영합니다. 기억이 행동을 바꾸는 가장 단순한 구현입니다.
3. 실행 레이어 (Execution)
메모리를 읽고 행동을 조정하는가. 이것이 자기 개선 루프의 핵심 관절입니다. Codex Chronicle이 “telepathy”라는 내부명을 가진 이유가 여기 있습니다. 에이전트가 마치 사용자의 의도를 텔레파시처럼 알아채는 인상을 줍니다. 하지만 실제 작동 방식은 단순합니다. 과거 화면 행동 데이터를 컨텍스트로 삽입하고, 그에 맞게 다음 응답을 조정하는 것입니다. 마법이 아니라 루프입니다.
4. 피드백 레이어 (Feedback)
루프가 닫히는 지점입니다. 에이전트가 행동한 결과를 다시 관찰 레이어로 연결하는 게이트. 여기서 PM이 저지르는 가장 흔한 실수는 피드백을 ‘사용자가 별점을 주는 것’으로만 정의하는 것입니다. Anthropic Dreaming의 피드백은 다릅니다. 멀티에이전트 환경에서 다른 에이전트가 내 출력을 평가하고, 그 평가가 다시 메모리로 들어갑니다. 사람이 개입하지 않아도 루프가 작동합니다.
DeepSeek V4가 OpenCode 포크에서 보여준 패턴도 같은 맥락입니다. 추론 모델이 자신의 실행 도구에서 API 응답 오류를 감지하고, 코드 레벨에서 직접 수정 패치를 만들어냈습니다. 피드백이 외부 인간 검토 없이 내부 실행 레이어에서 자동으로 닫힌 사례입니다.
지금 PM이 해야 할 것
이 네 레이어를 보면서, 지금 에이전트를 배포하고 있는 PM들에게 실용적인 출발점 세 가지를 드리고 싶습니다.
첫째, 에이전트가 완료한 작업의 결과를 파일로 기록하는 습관을 시스템에 박으세요. outcomes.md 하나로 시작해도 충분합니다. 에이전트가 다음 실행 때 이 파일을 읽으면, 그것으로 루프의 첫 발이 시작됩니다. 관찰 레이어와 메모리 레이어를 마크다운 한 파일로 연결하는 가장 저렴한 방법입니다.
둘째, 사용자 행동 데이터를 에이전트가 읽을 수 있는 형식으로 저장하세요. Spotify Studio가 이메일·캘린더를 연결한 것처럼, 제품의 사용자 행동 로그를 에이전트가 인출할 수 있는 구조로 만드는 것이 다음 우선순위입니다. 구조화된 JSON이든 간단한 텍스트 파일이든 — 에이전트가 읽을 수 없으면 관찰은 없는 것과 같습니다.
셋째, 사람이 아닌 다른 에이전트가 출력을 평가하는 구조를 실험해보세요. Anthropic Dreaming의 멀티에이전트 검증 루프처럼, ‘평가자 에이전트’를 두는 것만으로 피드백 속도가 수십 배 빨라집니다. LangSmith의 hwchase17이 “에이전트가 다른 에이전트를 위한 평가지표를 만든다”고 표현한 구조가 이것입니다. 프로덕션 트레이스를 데이터 생성의 사전(prior)으로 쓰는 자기 개선 메커니즘입니다.
루프는 기술이 아니라 설계 결정이다
자기 개선 루프를 에이전트에 넣는 것은 기술 문제가 아닙니다. Anthropic Dreaming도, OpenAI Codex Chronicle도, Spotify Studio도 — 핵심 기술은 이미 있었습니다. 바뀐 것은 설계 결정입니다. 관찰 대상을 무엇으로 정하고, 메모리를 어떤 형식으로 구조화하고, 피드백이 언제 어떻게 루프로 되돌아올지를 명시적으로 설계했습니다.
빅테크가 이 결정을 공식 제품 레이어로 끌어올렸다는 것은 — 이제 이 설계를 피할 수 없다는 뜻입니다.
모델 성능은 이미 비슷해졌습니다. Claude와 GPT, Gemini의 격차는 2024년보다 훨씬 줄었습니다. 남는 차별화는 루프의 설계입니다. 어디서 관찰하고, 무엇을 기억하고, 어떻게 조정하는가.
여러분의 에이전트는 어제의 결과를 기억하고 있나요? 그 기억이 오늘의 행동을 바꾸고 있나요?
#에이전트 #AI-PM