[Tech Notes]

Token과 비용, 응답 속도의 관계

LLM 운영에서 가장 먼저 이해해야 할 비용 단위

발행 2026-05-14Tech Notes3분 읽기

Token은 LLM이 텍스트를 처리하는 최소 단위다. 사람이 인식하는 단어와는 다르며, 모델 내부 규칙에 따라 더 잘게 쪼개진다.

LLM 기반 시스템에서 중요한 사실은 단순하다. 모든 비용과 성능은 토큰 단위로 계산된다.

특히 RAG 구조에서는 검색된 문서, system prompt, 대화 이력까지 모두 토큰으로 포함되기 때문에 토큰 수 관리는 곧 운영 관리다.

기업용 AI에서는 모델이 얼마나 똑똑한가보다 토큰을 얼마나 통제할 수 있는가가 더 중요해진다.

KMWorks AI Tech Lab은 짧은 기술 메모를 통해 AI 시스템 설계 기준을 정리합니다.