- IMDB 리뷰 데이터셋은 긍정/부정 리뷰 25,000개씩으로 구성, 텍스트가 숫자로 매핑됨. 🧮
- 텍스트 데이터 처리를 위해 고유 단어에 숫자를 부여, 이를 어휘 사전이라 부름. 📚
- 케라스는 IMDB 데이터셋을 제공하며, 빈도수 높은 단어 200개만 사용. ✂️
- 리뷰 길이 다르므로 패딩 작업 필요, 케라스의
pad_sequences
함수 활용. 🧱 - RNN 입력 위해 원-핫 인코딩 또는 임베딩 사용, 임베딩이 메모리 효율적. 💡
- 원-핫 인코딩은
to_categorical
함수로, 임베딩은Embedding
층으로 구현. ⚙️ - 임베딩 층은 단어를 고정 크기의 실수 벡터로 변환, 단어 간 의미 관계 표현. 💫