- LLM 문장 생성은 한 번에 한 토큰씩 진행되어, 답변 길이만큼 포워드 동작을 반복해야 하므로 시간이 오래 걸립니다. ⏳
- 반면, 주어진 문장이 그럴듯한지 검사하는 작업은 LLM의 한 번의 포워드 동작으로 여러 토큰을 한 번에 검증할 수 있어 상대적으로 빠릅니다. ✅
- Speculative Decoding은 작은 LLM(드래프트 모델)이 빠르게 답변 후보 뭉텅이를 생성하고, 큰 LLM(검증 모델)이 이를 한 번에 검증하여 생성 속도를 가속화하는 기술입니다. 🚀
- 작은 LLM이 뻔한 부분을 미리 생성하고, 큰 LLM은 핵심적이고 어려운 부분에 집중함으로써 전체 답변 생성 시간을 단축합니다. 🧠
- 검증에 실패하면 실패 지점부터 큰 LLM이 직접 생성하며, 이 과정에서 여러 후보 답변 생성이나 검증 기준 설정 같은 추가 기술들이 활용될 수 있습니다. 🛠️





