Token은 LLM이 텍스트를 처리하는 최소 단위다. 사람이 인식하는 단어와는 다르며, 모델 내부 규칙에 따라 더 잘게 쪼개진다.
LLM 기반 시스템에서 중요한 사실은 단순하다. 모든 비용과 성능은 토큰 단위로 계산된다.
- 입력 텍스트가 길어질수록 비용이 증가한다.
- 출력이 길어질수록 응답 속도가 느려진다.
특히 RAG 구조에서는 검색된 문서, system prompt, 대화 이력까지 모두 토큰으로 포함되기 때문에 토큰 수 관리는 곧 운영 관리다.
기업용 AI에서는 모델이 얼마나 똑똑한가보다 토큰을 얼마나 통제할 수 있는가가 더 중요해진다.