- 일반적으로 데이터는 많을수록 좋다는 인식이 있지만, 프론티어 모델의 학습 언어 비율을 보면 영어가 압도적으로 높음에도 한국어를 매우 잘 구사합니다. 💡
- 이는 한국어 데이터의 양이 영어만큼 많아야만 좋은 성능을 낼 수 있는 것은 아닐 수 있음을 시사합니다. 📉
- 한국어 측면에서 더 나은 성능을 위해서는 어느 정도의 기본 데이터가 필요하지만, 이 '기본'을 다지는 데 오히려 영어 데이터가 더 중요할 수 있습니다. 📚
- 다국어 모델이 각 언어별로 기능을 발현하려면 최소 수량 이상의 언어별 데이터가 필요하지만, 그 양이 영어 데이터만큼 무조건 많아야 하는 것은 아닙니다. 🌐



![[한국 IT의 어두운 면] 1.대한민국 클라우드 기술 미국대비 89.5점, 실제는 8.95점보다 못하다 - 솔직 비판(극노주의)](https://i4.ytimg.com/vi/3tRy1sqX88E/hqdefault.jpg)

