[운영 & 최적화]

모든 질문에 RAG를 쓰면 안 되는 이유

질문 유형에 따라 AI 경로를 분리해야 하는 진짜 이유

발행 2026-01-02 작성: (주)케이엠웍스 AI Tech Lab 6분 읽기

운영 & 최적화

Question Routing RAG or LLM only

Input

사용자 질문질문이 문서 근거를 필요로 하는지 판단합니다.

RAG

문서 기반 경로규정, 보고서, 사내 문서 질문에 사용합니다.

LLM

일반 생성 경로요약, 재작성, 형식 변환 요청에 사용합니다.

이 글의 핵심

RAG, 즉 Retrieval-Augmented Generation는 기업용 AI Agent의 기본 구조처럼 이야기된다. 하지만 실제 운영 환경에서 가장 먼저 부딪히는 문제 중 하나는 이것이다.

“왜 이렇게 느리고, 왜 이렇게 비용이 많이 들지?”

이 문제의 원인은 종종 RAG 그 자체가 아니라, RAG를 쓰는 방식에 있다.

RAG는 강력하지만, 비싸고 느리다

RAG는 다음 과정을 포함한다.

즉, 모든 질문에 RAG를 적용한다는 것은 모든 질문에 가장 무거운 경로를 태운다는 의미다. 이 구조는 데모 단계에서는 괜찮지만, 운영 단계에서는 곧 한계를 드러낸다.

실제 사용자 질문을 살펴보면 크게 두 가지로 나뉜다.

이런 질문은 RAG가 필요한 질문이다.

이런 질문은 굳이 문서를 검색할 필요가 없는 질문이다.

그럼에도 모든 질문을 RAG로 처리하면 불필요한 검색이 발생하고, 응답은 느려지고, 비용은 계속 쌓인다.

운영 환경에서는 보통 사용자 질문을 먼저 분류한 뒤, 문서 근거가 필요하면 RAG 경로로 보내고 생성이나 요약 중심 요청이면 LLM 단독 경로로 보낸다.

이 단순한 분기만으로도 latency, 비용, 시스템 부하가 눈에 띄게 개선된다.

처음부터 복잡할 필요는 없다.

중요한 건 완벽한 분류가 아니라 불필요한 RAG를 최대한 줄이는 것이다.

질문 유형에 따른 경로 분리는 RAG 운영 비용과 latency를 줄이는 가장 현실적인 첫 단계다.

RAG는 기업용 AI Agent의 핵심 구성 요소지만, 모든 질문에 적용해야 하는 만능 해법은 아니다.

운영 환경에서 중요한 것은 정확도만이 아니라 속도와 비용까지 포함한 전체 균형이다. 질문 유형에 따른 경로 분리는 그 균형을 맞추기 위한 가장 현실적인 첫 단계다.

KMWorks AI Tech Lab은 기업 환경에서 실제로 운영 가능한 AI 시스템 설계 경험을 공유합니다.