토큰화, 벡터화, 임베딩 무슨 차이일까? - NLP와 LLM 텍스트 데이터 기초 용어 이해하기
- 텍스트 데이터는 기계가 처리하기 위해 숫자로 변환되어야 하며, 토큰화, 벡터화, 임베딩은 이러한 변환 과정의 핵심입니다. 🤖
- 토큰화는 텍스트를 의미 있는 최소 단위(단어, 형태소 등)로 분리하는 과정입니다. ✂️
- 벡터화는 분리된 토큰들을 숫자 벡터로 표현하는 방법이며, Bag of Words, TF-IDF 등이 사용됩니다. 🔢
- 임베딩은 단어 또는 문장의 문맥적 의미와 유사도를 반영하여 저차원의 밀집 벡터를 구축하는 방법입니다. 🧠
- 텐서플로우 임베딩 프로젝터를 사용하면 단어 간의 유사도를 시각적으로 확인할 수 있습니다. 👁️
- 코사인 유사도는 단어 간의 각도를 기반으로 유사도를 측정하며, 유클리드 거리는 거리를 기반으로 측정합니다. 📐
- GPT와 같은 트랜스포머 모델에서도 단어 간의 유사도 계산에 코사인 유사도 기법이 사용됩니다. 🌐
- 오픈AI의 토크나이저를 사용하면 모델에 따라 토큰화 방식이 달라지는 것을 확인할 수 있습니다. 🔑
- 한국어 텍스트 분석 시에는 KoNLPy, Mecab, Kiwi 등의 형태소 분석기를 사용하여 토큰화를 수행할 수 있습니다. 🇰🇷
- 허깅페이스에서 다양한 텍스트 임베딩 모델을 찾아볼 수 있습니다. 🤗