Operations

AI 운영의 속도와 품질을 최적화합니다

Latency, token cost, top-k, context 길이, 모델 분리, prompt 제어, generation parameter, embedding cache와 검색 결과 cache처럼 운영 단계에서 필요한 튜닝을 다룹니다.