- Gro๊ฐ Speculative Decoding ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ Llama 3.1 70 billion parameter ๋ชจ๋ธ์ inference ์๋๋ฅผ 250 tokens/second์์ 1,665 tokens/second๋ก 6.6๋ฐฐ ํฅ์ ์์ผฐ์ต๋๋ค. โก
- ์ด ์๋ ํฅ์์ ํ๋์จ์ด๋ฅผ ๋ณ๊ฒฝํ์ง ์๊ณ ๋จ์ํ ์ํํธ์จ์ด ํ๋์ ํตํด ์ด๋ฃจ์ด์ก์ต๋๋ค. ๐ป
- Speculative Decoding์ ์์ ๋ชจ๋ธ๋ก ๋จผ์ ๋ช ๊ฐ์ ํ ํฐ์ ์์ธกํ ํ, ํฐ ๋ชจ๋ธ๋ก ๊ฒ์ฆํ์ฌ ์๋๋ฅผ ๋์ด๋ฉด์๋ ํ์ง ์ ํ๋ฅผ ์ต์ํํฉ๋๋ค. ๐
- ์ด๋ก ์ธํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์์ฉ ํ๋ก๊ทธ๋จ (์: ์ฑ๋ด, ๋ฒ์ญ)์์ ์ค์๊ฐ์ผ๋ก ๋น ๋ฅด๊ณ ์ ํํ ๋ฐ์์ด ๊ฐ๋ฅํด์ง๋๋ค. ๐