- 페이스북은 단일 단어 표현(예: 물)을 오디오, 비디오, 텍스트, 이미지에 적용하는 다중 모달 LLM을 개발했습니다. 🌊
- 객체를 벡터 공간에 매핑하여 이미지 벡터와 텍스트 벡터를 정렬하는 방식을 사용했습니다. 🐱🍔
- 컴퓨터 그래픽의 개념을 활용하여 벡터 공간의 점들을 변환, 크기 조정, 회전하여 정렬했습니다. 🔄
- 이미지와 텍스트 설명이 매핑된 대규모 데이터셋을 사용하여 모델을 훈련했습니다. 📚
- 비디오 및 오디오 파일을 이미지 파일에 정렬하여 다양한 모달 간의 상호 매핑을 가능하게 했습니다. 🎬
- 이미지를 중간 매핑으로 사용하는 ‘emergent alignment’를 통해 최첨단 인식 기능을 달성했습니다. ✨