[Tech Notes]

Corpus, Chunking, Embedding의 관계

RAG 검색 품질을 결정하는 기본 흐름

발행 2026-04-23Tech Notes3분 읽기

RAG 시스템은 Corpus, Chunking, Embedding이라는 흐름 위에서 동작한다.

Corpus는 검색 대상으로 삼는 전체 문서 집합이고, Chunking은 이 문서를 검색 가능하도록 쪼개는 과정이다. Embedding은 각각의 chunk를 의미 벡터로 변환하는 단계다.

이 세 단계는 독립적이지 않다. Chunk가 바뀌면 embedding 결과도 달라지고, embedding 모델이 바뀌면 기존 벡터는 모두 무효화된다.

RAG 성능 문제는 검색 알고리즘보다 앞단의 corpus, chunking, embedding에서 발생하는 경우가 훨씬 많다.

KMWorks AI Tech Lab은 짧은 기술 메모를 통해 AI 시스템 설계 기준을 정리합니다.