- DeepSeek V3는 세계 최고의 비추론 모델로 GPT-4.5를 능가합니다. 🏆
- 이 강의는 DeepSeek V3의 이론적 배경과 코드 구현을 처음부터 끝까지 안내합니다. 👨🏫
- Multi-Head Latent Attention은 입력 임베딩 벡터를 축소하여 계산 효율성을 높이고 중요한 정보만 추출합니다. 🧠
- 쿼리, 키, 값 벡터는 단어의 의미와 문맥을 파악하는 데 사용됩니다. 🔑
- 쿼리 벡터는 단어가 어떤 문맥을 찾고 있는지 설명하고, 키 벡터는 토큰이 어떤 문맥을 가지고 있는지 보여줍니다. 🗣️
- 행렬 곱셈을 사용하여 각 단어가 다른 단어에 얼마나 많은 관심을 갖는지 계산합니다. 🧮
- 언어 모델은 미래의 단어를 볼 수 없도록 특정 상호 작용을 0으로 설정합니다. 🚫