- 딥시크는 문서, 코드, 프로파일링 덤프까지 포함한 오픈 인프라 인덱스를 공개하여 엔지니어링 열정과 투명성을 보여주었습니다. 🚀
- 오픈소스 공개의 주된 동기는 커뮤니티 기반 혁신을 촉진하고 개발자로서의 진전을 투명하게 공유하는 것이며, 실제 프로덕션에서 검증된 코드임을 강조했습니다. 🤝
- LM 인프라의 미지의 영역을 탐구하며, 딥시크가 ChatGPT와 유사한 성능과 스케일을 달성하는 데 사용된 핵심 기술들을 엿볼 수 있었습니다. 💡
- Flash MLA (Day 1)는 트랜스포머 모델의 어텐션 레이어 메모리 효율을 극대화하기 위해 BF16, Paged Key-Value 캐시, 엔비디아 커널 최적화 등을 적용하여 LM 서빙의 메모리 절약 중요성을 부각했습니다. 🧠
- DVEP (Day 2)는 MOE(Mixture of Experts) 모델의 GPU 분산 시 발생하는 통신을 최적화하는 라이브러리로, NVLink(노드 내) 및 RDMA(노드 간)를 활용하여 대규모 MOE 모델의 확장을 가능하게 합니다. 🌐
- DeepGEM (Day 3)은 MOE 모델에 특화된 고효율 행렬 곱셈(GEMM) 코드를 공개했으며, FP8을 사용하여 메모리를 절약하고 호퍼 GPU에서 초당 1350 테라플롭스 이상의 성능을 달성합니다. ⚡
- 병렬 처리 최적화 (Day 4)에는 훈련 가속을 위한 듀얼 파이프라인과 GPU 간 익스퍼트 로드 밸런싱(EPLB) 기술이 포함되어, 기존 인프라의 로드 밸런싱 전략과 유사한 접근 방식을 보여줍니다. ⚖️
- Firefly File System (F3FS) (Day 5)는 수백 개의 SSD와 스토리지 노드를 하나의 거대한 시스템처럼 활용하는 분산 파일 시스템으로, 스토리지와 컴퓨팅 리소스를 분리하여 독립적인 확장을 가능하게 하는 디스어그리게이티드 아키텍처를 채택했습니다. 💾
- F3FS 기반의 데이터 처리 프레임워크인 SmallDuck은 DuckDB를 활용하여 페타바이트 스케일의 데이터셋을 효율적으로 처리하며, 기존 데이터 웨어하우스 솔루션의 한계를 극복할 잠재력을 보여줍니다. 🦆
- 최종적으로 공개된 인퍼런스 시스템 오버뷰는 H800 노드에서 초당 73,000개의 입력 토큰과 14,000개의 출력 토큰을 처리하는 놀라운 성능을 달성하여, 딥시크 서비스의 고성능 서빙 능력을 입증했습니다. 🏆
데브허브 | DEVHUB | DeepSeek 핵심 AI 인프라 공개