Token과 비용, 응답 속도의 관계
LLM 기반 시스템에서 token이 비용과 응답 속도를 어떻게 결정하는지 정리합니다.
긴 글로 묶기 전의 실험 결과, 용어 정리, 설계 메모를 기록합니다. 나중에 다시 꺼내 쓸 수 있는 기술 자산을 만드는 카테고리입니다.
LLM 기반 시스템에서 token이 비용과 응답 속도를 어떻게 결정하는지 정리합니다.
Context Window가 RAG 품질에 주는 영향과 필요한 정보만 선별해야 하는 이유를 설명합니다.
RAG 시스템의 기본 흐름인 corpus, chunking, embedding의 관계를 정리합니다.
Vector DB와 Top-k 검색이 정확도, 비용, latency 사이에서 어떤 역할을 하는지 설명합니다.
User Prompt와 System Prompt의 역할 차이, 그리고 기업용 AI에서 prompt가 제어 설정인 이유를 정리합니다.
Temperature와 Top-p를 창의성 옵션이 아니라 운영 정책 값으로 다뤄야 하는 이유를 설명합니다.
AI Agent를 단순 생성 모델이 아니라 판단하고 행동하는 시스템으로 정의합니다.
복잡한 기업 업무를 처리하기 위한 판단, 실행, 검증의 Agent 설계 흐름을 정리합니다.
LLM 시스템에서 latency, cost, caching이 운영 지속성과 어떻게 연결되는지 정리합니다.