- 벡터는 개념의 압축된 표현이며, 텍스트나 객체를 1차원 배열로 변환하여 의미를 담습니다. 🗜️
- 벡터 간의 거리는 의미 유사성을 나타내며, 이는 채용 과정에서 지원자 필터링에 활용될 수 있습니다. 🧑💼
- 토큰화는 텍스트를 문자 단위로 분해 후 빈번하게 함께 나타나는 문자열을 병합하여 어휘 크기를 줄입니다. 🧩
- 바이트 쌍 인코딩은 어휘집의 엔트로피를 줄이기 위해 빈번한 하위 문자열을 병합하는 방식으로 토큰을 생성합니다. 📉
- BERT 모델은 입력 토큰을 임의의 벡터로 변환한 후, 문맥적 의미를 학습하도록 신경망을 통해 조정합니다. 🤖
- BERT는 문장 내 일부 단어를 가리고 모델이 원래 단어를 예측하도록 훈련하여 벡터의 품질을 향상시킵니다. 🎯
- 문장 순서 예측 훈련을 통해 모델은 인과 관계를 이해하고 벡터에 의미를 부여합니다. 📚