컬
컬리
July 8, 20241회
서버리스에서 쿠버네티스로 - Airflow 운영 경험기

간단 소개
컬리는 Airflow를 관리형 서비스에서 K8S로 전환하며 CPU 과부하, OOM, 로그 문제 등을 해결하고 비용 절감 효과를 얻었습니다.
AI Summary
- Airflow 운영 환경 전환 배경
- 컬리는 기술 성숙도를 높이기 위해 관리형 서비스에서 K8S 환경으로 Airflow 운영 환경을 전환함.
- 성능 및 비용 최적화를 목표로 하며, 직접 관리하며 기술 수준을 향상시키고자 함.
- K8S 환경에서의 Airflow 운영 이슈 해결
- CPU 과부하 문제: GitSync로 인한 스케줄러 CPU 사용량 급증 문제를
min_file_process_interval값 조정으로 해결함. Airflow 2.0부터 GitSync한 DAG 파일을 직렬화하여 Metadata를 DB에 저장하는 작업이 스케줄러에 영향을 미침. - OOM 문제: 워커의 메모리 부족으로 인한 파드 종료 문제를 해결하기 위해 K8S 자원 제한 정책(request, limit)을 적용하고, Taint와 Tolerations을 통해 노드를 분리하여 관리함.
- 실행 로그 문제: 워커에 태스크 할당 지연으로 로그가 사라지는 문제를 해결하기 위해 워커 수를 늘리는 스케일 아웃을 적용함.
- CPU 과부하 문제: GitSync로 인한 스케줄러 CPU 사용량 급증 문제를
- 운영 환경 전환 효과 및 소감
- Airflow 및 K8S 기술 역량 증가, 관리형 서비스 대비 비용 50% 절감 효과를 얻음.
- 로그 수집 및 모니터링 고도화 필요성을 느끼고, K8S에서 Airflow를 안정적으로 운영하기 위한 노력을 지속할 계획임.
Next Feeds

PR 생성될때, 자동으로 이미지 용량 최적화 하기
GitHub Actions와 TinyPNG API를 활용하여 PR 생성 시 이미지 용량을 자동으로 최적화하는 방법을 소개합니다.
GitHub ActionsTinyPNG이미지 최적화자동화API
2024. 7. 8.
PRND

롯데온의 코딩 파트너, GitHub Copilot 도입기
롯데ON의 GitHub Copilot 도입 사례를 통해 주요 기능, 활용법, 효과 및 한계점을 분석하고 개발 생산성 향상에 대한 기여를 강조합니다.
GitHub CopilotCode Completion코드 리팩토링코드 리뷰개발 생산성
2024. 7. 8.
롯데ON
[보안 컨퍼런스] .HACK 2024 참가 후기
.HACK 2024 컨퍼런스 참관 후기로, 키노트 내용, 주요 세션 발표 내용, 다양한 이벤트 및 느낀점을 요약.
보안컨퍼런스사이버보안해킹취약점
2024. 7. 5.
현대자동차

올리브영 셔터 이미지 업로드 성능 개선기
올리브영 셔터의 이미지 업로드 성능을 개선하여 사용자 경험을 향상시키고 커뮤니티를 활성화했습니다.
이미지 업로드성능 개선PreSignedURLCanvas APIWebP
2024. 7. 4.
올리브영

나의 하루를 읽어주는 AI, mini 일기 서비스 개발기
카카오뱅크 mini 일기 서비스 개발 과정을 통해 ChatGPT 활용 및 성능 분석, 서비스 안정화 전략을 제시합니다.
ChatGPTAzure OpenAImini 일기성능 분석MLOps
2024. 7. 4.
카카오뱅크
Google Cloud Next 2024 참관 후기 4편 - AI를 장착한 개발자의 파워풀한 퍼포먼스 내기
Google Cloud Next 2024에서 Gemini와 Code Assist를 활용한 개발 생산성 향상 방안과 AI 사용에 대한 구글의 해결책을 제시합니다.
GeminiCode AssistAI개발 생산성호모 프롬프트
2024. 7. 2.
카카오페이