[Tech Notes]

Token과 비용, 응답 속도의 관계

LLM 운영에서 가장 먼저 이해해야 할 비용 단위

Token은 LLM이 텍스트를 처리하는 최소 단위다. 사람이 인식하는 단어와는 다르며, 모델 내부 규칙에 따라 더 잘게 쪼개진다.

LLM 기반 시스템에서 중요한 사실은 단순하다. 모든 비용과 성능은 토큰 단위로 계산된다.

  • 입력 텍스트가 길어질수록 비용이 증가한다.
  • 출력이 길어질수록 응답 속도가 느려진다.

특히 RAG 구조에서는 검색된 문서, system prompt, 대화 이력까지 모두 토큰으로 포함되기 때문에 토큰 수 관리는 곧 운영 관리다.

기업용 AI에서는 모델이 얼마나 똑똑한가보다 토큰을 얼마나 통제할 수 있는가가 더 중요해진다.