- 기존 방식은 CPU 메모리에 텐서를 생성한 후 GPU로 복사하는 과정을 거칩니다. 🔄
- 이 과정에서 불필요한 CPU-GPU 데이터 복사가 발생하여 성능 저하의 원인이 됩니다. 🐌
- 데이터 복사 시점에 GPU 커맨드 스트림이 강제로 동기화되어 GPU의 병렬 처리가 방해받고 CPU 작업 완료를 기다리게 됩니다. ⏳
- 더 효율적인 방법은 텐서 생성 시
device='cuda'파라미터를 명시하여 처음부터 GPU 메모리에 직접 할당하는 것입니다. ✨ - GPU에 직접 할당하면 불필요한 CPU-GPU 복사 및 스트림 동기화가 사라져 GPU 처리 속도를 크게 향상시킬 수 있습니다. 🚀



![[KO] 논문쓸 때 쓰는 Agent를 만들자](https://i1.ytimg.com/vi/PsHko5VVvQI/hqdefault.jpg)

