검색과 추론 등 LLM의 기능이 고도화되며 모델은 점점 더 똑똑해지고 있습니다. 그러나 이를 실제 서비스에 적용하려면 언제나 ‘속도’라는 벽에 부딪히죠. LLM은 텍스트를 토큰 단위로 하나씩 순차적으로 생성하며, 매번 전체 모델 파라미터를 불러와야 하기에 모델이 커질수록 지연이 커지고, 하드웨어 성능만으로는 속도 개선에 한계가 있습니다. 이러한 병목을 해결하기 위한 대표적인 접근 방식이 바로 Speculative Decoding입니다. 이 기술은 […]