DeepSeek 3FS: Distributed File System to train LLMs
- DeepSeek 3FS는 대규모 언어 모델(LLM) 훈련을 가속화하기 위해 DeepSeek이 오픈소스화한 분산 파일 시스템입니다. 🧠
- LLM 훈련에 필요한 수백 테라바이트의 비정형 데이터를 효율적으로 필터링하고 정렬하는 데 따르는 IO 집약적인 문제를 해결하기 위해 개발되었습니다. 🚀
- 이 시스템은 클러스터 관리자가 노드 멤버십 변경 및 구성을 담당하는 노드 클러스터를 활용하여 데이터를 저장합니다. 🌐
- 클러스터 관리자는 노드 추가 시 등록을 처리하고, 노드 장애 시 하트비트 중단 및 요청 전송 중단을 통해 시스템의 안정성을 보장합니다. ❤️🩹
- 데이터 쓰기 요청은 모든 스토리지 노드에 브로드캐스트되어 로컬 SSD에 저장되며, 이는 단일 실패 지점을 방지하고 데이터 분산을 촉진합니다. 💾
- 대용량 파일은 여러 청크로 분할되어 클러스터 내 모든 노드에 분산 저장되어 효율적인 처리를 가능하게 합니다. 🧩
- 데이터 복제에는 체인 복제 방식이 사용되어, 단일 스토리지 헤드가 데이터를 체인 따라 순차적으로 복제함으로써 전체 IO 요구 사항을 크게 줄입니다. ⛓️
- Kafka에서 영감을 받은 비동기 제로-카피 최적화는 읽기/쓰기 요청을 큐에 보내 파일 시스템 캐시에서 IO로 직접 복사하여 불필요한 애플리케이션 캐시 복사를 방지하고 메모리 및 시간을 절약합니다. ⚡
- 결과적으로 DeepSeek 3FS는 110TB의 데이터를 30분 내에 정렬하고, 초당 6.6TB의 데이터를 처리하는 뛰어난 성능을 보여줍니다. ⏱️
데브허브 | DEVHUB | DeepSeek 3FS: Distributed File System to train LLMs