LLM 시스템에서 latency와 cost는 분리되지 않는다.
- 토큰이 많아지면 비용과 지연이 함께 증가한다.
- 불필요한 RAG 호출은 시스템 전체를 느리게 만든다.
그래서 운영 환경에서는 embedding 결과와 검색 결과를 캐싱해 중복 계산을 줄인다.
Caching은 성능 최적화가 아니라 운영 지속성을 위한 기본 설계다.
운영 지속성을 위한 기본 최적화 구조
LLM 시스템에서 latency와 cost는 분리되지 않는다.
그래서 운영 환경에서는 embedding 결과와 검색 결과를 캐싱해 중복 계산을 줄인다.