카
카카오페이
August 11, 20221회
모델 서빙 최적화를 위한 프레임워크 선정과 서빙 성능 극대화하기
간단 소개
카카오페이의 모델 서빙 최적화 과정: 프레임워크 비교, Triton 선정 및 성능 극대화 전략을 통해 서비스 성능을 향상시킨 사례를 공유합니다.
AI Summary
- 카카오페이 모델 서빙 현황 및 문제점
- 기존에는 파이썬(모델 개발)과 코틀린+스프링부트(서빙)을 혼용하여 개발 생산성은 높았지만, 언어 간 변환, 다양한 모델 포맷 지원, 성능 튜닝에 어려움이 있었습니다.
- ONNX, TensorRT 등 모델 인퍼런스 최적화를 도입했으나, 속도와 정합성 간의 trade-off, 모델별 최적 포맷 상이 등의 문제가 발생했습니다.
- 모델 서빙 프레임워크 비교 및 선정
- FastAPI, Tensorflow Serving, Triton을 비교 평가했으며, 처리량, 지연시간, 최적화 비용, 안정성을 중점적으로 고려했습니다.
- Triton은 다양한 모델 포맷 지원, Dynamic Batch Inference 등의 장점으로 최종 선정되었습니다.
- Triton 모델 서빙 성능 극대화
- Dynamic Batch, Concurrent Model Execution 등의 기능을 활용하여 모델 서빙 성능을 개선했습니다.
- Model Analyzer를 통해 최적의 옵션 조합을 찾고, 리소스 사용량을 분석하여 실제 서비스 배포 시 리소스 최적화 방안을 마련했습니다.
- 모델 포맷 변경(TensorRT), Dynamic Batch 적용, Concurrent Model Execution을 통해 성능을 크게 향상시켰습니다.
Next Feeds
자동화 테스트로 수 억 대의 디바이스 환경에서 살아남는 SDK 완성하기 - QA Engineer 인터뷰
AB180은 QA 엔지니어에게 성장 기회를 제공하며, 자동화 테스트 환경 구축 경험과 주도적인 업무 능력을 키울 수 있는 환경을 제공합니다.
QA 엔지니어자동화 테스트에어브릿지AB180SDK
2022. 8. 10.
AB180

9가지 프로그래밍 언어로 배우는 개념: 2편 - 다형성
다양한 프로그래밍 언어에서 다형성을 구현하는 방법들을 비교 분석하고, 각 기법의 장단점 및 한계점을 설명합니다.
다형성오버로딩인터페이스제네릭타입 클래스
2022. 8. 9.
데브시스터즈

올리브영 데이터 엔지니어링
올리브영의 데이터 엔지니어링은 ETL에서 클라우드 기반으로 확장되었으며, MSA 기반 데이터 서비스 플랫폼으로 진화 중입니다.
데이터 엔지니어링ETLGCP데이터 파이프라인MSA
2022. 8. 8.
올리브영
Redux, Again
React 상태 관리의 어려움 극복을 위해 Redux를 도입하고, Local state 우선 전략과 Hook을 활용한 상태 공유를 거쳐, 결국 Redux의 생산성을 재발견하는 과정.
ReduxReact상태관리HookContext
2022. 8. 8.
VCNC

컬리 검색이 카프카를 들여다본 이야기 1
컬리 검색 시스템에서 카프카 설정 튜닝을 통해 메시지 처리량(스루풋)을 개선하고 불필요한 시스템 동작을 방지한 경험 공유.
카프카레디스리밸런싱max.pollBatch Listener
2022. 8. 8.
컬리

Unity 프로젝트를 위한 Git Hooks 활용
Unity 프로젝트에서 Git Hooks를 활용하여 문제 예방 및 개발 효율성을 높이는 방법과 주의사항을 소개합니다.
Git HooksUnity버전 관리개발 효율성Rust
2022. 8. 2.
데브시스터즈