버
버즈빌
April 18, 20241회
데이터 엔지니어의 Airflow 데이터 파이프라인 CI 테스트 개선기

간단 소개
버즈빌 데이터 엔지니어링 팀이 Airflow 데이터 파이프라인 CI 테스트를 개선하여 개발 효율성을 향상시킨 과정을 소개합니다.
AI Summary
- CI 테스트 개선 배경
- 버즈빌 데이터 플랫폼 팀의 셀프 서빙 데이터 플랫폼 구축 후 데이터 파이프라인 추가 시 CI 테스트 시간이 오래 걸려 개발 효율 저하 발생.
- 벨로시티 스프린트 기간을 활용하여 CI 테스트 개선 작업 진행.
- 개선 과정
- build_image 단계: 빌드 캐싱 문제 해결 및 이미지 빌드 과정 의존성 개선으로 시간 단축.
- pytest-and-validate-athena-query 단계: 불필요한 커맨드 제거 및 병렬 실행으로 효율성 증대.
- mypy 단계: 깃허브 액션 캐시 저장소를 활용하여 캐싱 효율을 높임.
- 개선 결과 및 효과
- CI 테스트 시간이 최대 7분에서 3분대로 단축되어 약 50% 개선.
- 데이터 엔지니어 및 파이프라인 관리자들의 업무 효율성 향상 및 업무 집중도 개선.
Next Feeds
[보안] 2024년 보안 기술 트렌드 A to Z 분석 : NCP 보안 아키텍처 구성하기
2024년 보안 트렌드 분석 및 네이버 클라우드 플랫폼(NCP)을 활용한 보안 아키텍처 구성 방안 제시.
보안클라우드AI 보안공급망 공격NCP
2024. 4. 17.
네이버클라우드플랫폼

‘부스타’ episode.1 시작
부스터스에서 개발한 BI 및 자동화 툴 '부스타'의 개발 배경과 Version 1의 기능 및 효과를 소개합니다.
부스타자동화데이터BI업무 효율
2024. 4. 17.
부스터스

ROP Pattern
ROP 패턴은 성공/실패 흐름을 분리하여 에러 핸들링을 개선하고, 사이드 이펙트를 줄여 개발 생산성을 높이는 프로그래밍 방식입니다.
ROP PatternFunctorMonadResult에러 핸들링
2024. 4. 16.
비브로스
ChatGPT 프롬프트 팁 시리즈 - (3) Persona
ChatGPT 프롬프트 팁 시리즈 (3): 페르소나를 활용하여 LLM의 출력을 제어하고 원하는 답변을 얻는 방법에 대한 설명.
ChatGPT프롬프트페르소나LLM프롬프트 엔지니어링
2024. 4. 15.
빅웨이브에이아이

Data Parallelism in Machine Learning Training
생성형 AI 모델 학습을 위한 데이터 병렬 처리 기술과 동기/비동기 업데이트 방식, Ring-AllReduce 알고리즘을 설명합니다.
데이터 병렬 처리분산 훈련GPU동기 업데이트Ring-AllReduce
2024. 4. 15.
메가존클라우드

Argo Events 도입기
Argo Events를 도입하여 이벤트 기반 인프라 스케일링 자동화를 구축하고, 수동 작업으로 인한 번거로움을 해소한 경험을 공유합니다.
Argo Events자동화kubernetesEvent-DrivenHelm chart
2024. 4. 15.
비브로스