A
AWS
October 24, 20252회
SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정
간단 소개
Amazon SageMaker AI 환경에서 GPT-OSS 120B 모델의 LLM 추론 성능 테스트, 최적화 기법, 용량 산정 및 vLLM/SGLang 벤치마크 결과를 분석합니다.
AI Summary
- SageMaker AI 및 LLM 추론 개요
- Amazon SageMaker AI는 완전 관리형 ML 플랫폼으로, GPT-OSS 120B 모델의 추론 성능 테스트 및 GPU 용량 산정 방법을 다룹니다.
- LLM 추론은 **프리필(Prefill)**과 디코드(Decode) 두 단계로 작동하며, 디코드 단계는 메모리 대역폭 바운드 특성을 가집니다.
- 키-값 캐시(KV Cache) 관리는 디코드 단계의 효율성을 높이는 핵심 메커니즘입니다.
- 추론 최적화 기법 및 성능 지표
- LLM 추론 최적화는 모델 경량화(양자화), 추론 과정 최적화(키-값 캐싱, 연속 배치, 페이지드 어텐션), **하드웨어 가속(Inferentia)**으로 구분됩니다.
- 연속 배치 처리와 페이지드 어텐션은 GPU 자원 활용도와 메모리 효율성을 크게 개선합니다.
- 주요 성능 지표는 TTFT, ITL, TPOT, E2E(지연 시간) 및 **TPS, RPS(처리량)**가 있습니다.
- 오픈소스 프레임워크 및 벤치마크
- vLLM과 SGLang은 대표적인 오픈소스 추론 프레임워크로, 지속적인 성능 개선 경쟁을 통해 발전하고 있습니다.
- GPU 메모리 용량 산정은 모델 파라미터, 키-값 캐시, 활성화 메모리 등을 고려하며, 텐서 병렬 등으로 분산 로딩이 가능합니다.
- GPT-OSS 120B 모델 벤치마크 결과, p4de 인스턴스와 vLLM 조합이 전반적으로 높은 성능 우위를 보였습니다.
Next Feeds
기기 없이 앱을 테스트하는 법, 멀티버스가 알려드립니다
카카오페이의 멀티버스는 가상 기기를 통해 앱 테스트 환경 구축 및 관리를 간소화하여 개발 효율성을 높이는 macOS 앱입니다.
멀티버스가상 기기앱 테스트macOS 앱테스트 편의 기능
2025. 10. 23.
카카오페이

요기요 카오스 엔지니어링 (1) 카오스 실험 시작하기
요기요가 카오스 엔지니어링을 도입하여 시스템 안정성을 검증하고, AWS FIS 사용 중 발생한 기술적 이슈를 해결한 경험을 공유합니다.
카오스 엔지니어링AWS FISIstio시스템 안정성장애 주입
2025. 10. 23.
요기요

마케터를 돕는 LLM 기반 DMP - Seg Lens 시스템 개발기
SK플래닛이 마케터의 의도를 이해하고 최적의 타겟 세그먼트를 찾아주는 LLM 기반 DMP 'Seg Lens' 시스템을 개발한 사례를 소개합니다.
LLMDMPSeg Lens벡터 데이터베이스의미 기반 탐색
2025. 10. 23.
skplanet
if(kakao)25 - 카카오모빌리티의 랩업과 리뷰
카카오모빌리티가 if(kakao)25에서 자율주행, AI 기반 경로 탐색, HD MAP 자동화, AI 업무 자동화, AI 주소 자동 완성 등 핵심 기술과 비전을 공유했다.
카카오모빌리티if(kakao)25자율주행강화 학습AI
2025. 10. 22.
카카오모빌리티

Our Journey to Using Host Network in Kubernetes Pods
당근은 Kubernetes Pod의 Host Network 설정을 DaemonSet과 Job Pod에 적용하여 IP 주소를 절약하고 Pod 생성 속도를 개선했습니다.
KubernetesHost NetworkDaemonSetJob PodIP Address
2025. 10. 22.
당근
가맹점은 변함없이, 결제창 시스템 전면 재작성하기
토스페이먼츠가 20년 된 레거시 결제창 시스템을 가맹점 변경 없이 새로운 아키텍처로 전면 재작성하고, 안전한 전환 및 성능 최적화를 통해 비즈니스 요구사항 반영 속도를 획기적으로 개선한 여정.
레거시 시스템결제창아키텍처 재설계Canary 배포성능 최적화
2025. 10. 22.
토스