[Tech Notes]

Latency, Cost, Caching의 기본 관계

운영 지속성을 위한 기본 최적화 구조

LLM 시스템에서 latency와 cost는 분리되지 않는다.

  • 토큰이 많아지면 비용과 지연이 함께 증가한다.
  • 불필요한 RAG 호출은 시스템 전체를 느리게 만든다.

그래서 운영 환경에서는 embedding 결과와 검색 결과를 캐싱해 중복 계산을 줄인다.

Caching은 성능 최적화가 아니라 운영 지속성을 위한 기본 설계다.