- ์ด๋ค LLM๋ DeepSeek R1 ์คํ์ผ ์ถ๋ก ๊ธฐ๋ก ๋ฐ๊พธ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ๋ ํํ ๋ฆฌ์ผ์ ๋๋ค. ๐
- GRPO(Group Relative Policy Optimization)๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค. โ๏ธ
- Google Colab์์ ๋ฌด๋ฃ๋ก ์คํ ๊ฐ๋ฅํ ์ฝ๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ๐ป
- ํ๋ จ ์ ํ ๋ชจ๋ธ์ ์ถ๋ ฅ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค. (์ถ๋ก ๊ณผ์ ์ถ๊ฐ) ๐
- ๋ค์ํ ๋ณด์ ํจ์(์ ํ์ฑ, ํ์, XML ํ๊ทธ ์กด์ฌ ์ฌ๋ถ ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ํ์ต์ ์ ๋ํฉ๋๋ค. ๐
- GSM 8K ๋ฐ์ดํฐ์ ์ ์ฌ๊ตฌ์ฑํ์ฌ ์ฌ์ฉํฉ๋๋ค. ๐
- Hugging Face์ small LM (135M ํ๋ผ๋ฏธํฐ)์ ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ์ฌ์ฉํ์ผ๋, ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ ์ ์์ต๋๋ค. ๐ก
- ํ๋ จ ๋ฐฐ์น ํฌ๊ธฐ, ํ์ต๋ฅ ๋ฑ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ๐
- ์คํ ๊ฒฐ๊ณผ๋ ์ฑ๊ณต์ ์ด์ง ์์์ง๋ง, ํฅํ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค. ๐ก