- 텍스트를 처리하기 위해 컴퓨터는 숫자를 기반으로 작업합니다. 따라서 모든 정보는 숫자로 표현되어야 합니다. 🤖
- 글자가 벡터 공간에서 각각 대표된다는 것입니다. 📌
- 단순히 하나의 글자를 표현하는 방식은 one-hot encoding 방식을 사용할 수 있지만, 단어 레벨로 표현하는 것은 one-hot encoding의 문제점을 보완해야 합니다 🧭
- Gensim은 다양한 알고리즘을 통해 학습된 단어 벡터 모델을 제공하여 컴퓨터가 단어의 의미를 이해할 수 있도록 돕습니다. 💡
- 단어 벡터는 단어의 유사성을 나타내고 벡터 공간에서 가까운 단어들은 의미적으로 유사하다는 특징을 가지고 있습니다. 🤏
- Transformer에서는 단어를 벡터로 표현하는 embedding layer가 전체 모델 구조와 함께 학습됩니다. 📚
- Transformer에서는 단어 (tokens) 대신 “token”을 사용하여 추가적인 분석이 가능합니다. 🧩