메
메가존클라우드
April 15, 20241회
Data Parallelism in Machine Learning Training

간단 소개
생성형 AI 모델 학습을 위한 데이터 병렬 처리 기술과 동기/비동기 업데이트 방식, Ring-AllReduce 알고리즘을 설명합니다.
AI Summary
- 데이터 병렬 처리의 중요성
- 생성형 AI 모델 학습에 필수적인 분산 훈련 시스템의 핵심 기술
- 대규모 데이터셋을 여러 GPU에 분할하여 각 GPU가 모델 사본을 가지고 병렬적으로 학습
- 각 GPU는 전체 데이터셋의 일부만 학습하므로 모델 상태가 약간씩 다름
- 동기 vs 비동기 업데이트
- 동기 업데이트: 모든 GPU의 gradient를 집계하여 모델 파라미터를 동시에 업데이트 (모델 상태 일관성 유지)
- 비동기 업데이트: 각 GPU가 독립적으로 모델을 업데이트하고 파라미터 업데이트를 비동기적으로 공유 (학습 처리량 향상, 모델 상태 불일치 가능성)
- Ring-AllReduce 알고리즘
- 분산된 비동기 알고리즘으로, GPU를 링 토폴로지로 구성하여 효율적인 통신을 가능하게 함
- 중앙 파라미터 서버의 필요성을 제거하고, 동기화된 파라미터 업데이트를 통해 일관된 모델 상태를 유지
- Scatter-Reduce와 AllGather 단계를 통해 gradient를 집계하고 공유
Next Feeds

Argo Events 도입기
Argo Events를 도입하여 이벤트 기반 인프라 스케일링 자동화를 구축하고, 수동 작업으로 인한 번거로움을 해소한 경험을 공유합니다.
Argo Events자동화kubernetesEvent-DrivenHelm chart
2024. 4. 15.
비브로스

올리브영 QA는 Datadog을 어떻게 활용하고 있을까?
올리브영 QA팀은 Datadog을 활용하여 서비스 품질을 관리하고 있습니다. APM 로그, RUM, UI/UX 자동화 테스트를 통해 오류를 감지하고 성능을 개선합니다.
DatadogQAAPMRUM로그 분석
2024. 4. 11.
올리브영

그리드서치로 랜덤포레스트 튜닝하기
그리드서치를 이용해 랜덤 포레스트 모델을 튜닝하고, 항공권 예약 데이터 예측 성능을 개선하는 과정을 분석합니다.
랜덤 포레스트그리드 서치하이퍼파라미터 튜닝오버샘플링특성 중요도
2024. 4. 10.
메가존클라우드
통합된 개발과 배포 : Monorepo와 GitOps의 매력적인 조합
Monorepo와 GitOps를 결합하여 개발 및 배포 환경을 통합하고 자동화한 FE 개발팀의 경험을 공유합니다.
MonorepoGitOpsCI/CDDockerArgoCD
2024. 4. 8.
사람인

Planet AD 서비스 안정화 가이드
Planet AD 서비스 안정화 및 비용 최적화 사례 공유: EKS, Autoscaling, DB, DynamoDB, AWS 비용 절감 전략.
EKSAutoscalingKEDARDS ProxyDynamoDB
2024. 4. 5.
skplanet
ChatGPT 프롬프트 팁 시리즈 - (2) Output Automater
Output Automater는 LLM의 단계별 작업 자동화를 통해 결과물의 품질을 높이고 수동 작업 시간을 단축하는 프롬프트 팁입니다.
Output AutomaterLLM자동화프롬프트ChatGPT
2024. 4. 4.
빅웨이브에이아이