유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

사람인

June 26, 20241

Karpenter 파일럿

Karpenter 파일럿
간단 소개

사람인 SRE팀에서 AWS EKS 환경을 안정적이고 확장성 있게 운영하기 위해 Karpenter를 도입하고 테스트한 과정과 운영 전략을 공유합니다.

AI Summary
  • Karpenter 도입 배경 및 문제점
    • 기존 EKS 환경의 문제점: 신규 서비스의 낮은 인스턴스 타입 설정, 배포 시 잦은 Node Not Ready 상태, 느린 Auto Scaling Group 감지 속도, 수동 노드 그룹 관리로 인한 On-Demand 비용 증가 및 안정성 결여.
    • Karpenter는 CA와 달리 노드 그룹 없이 인스턴스를 직접 관리하여 이러한 문제점을 해결하고자 함.
  • Karpenter 운영 전략 및 테스트
    • Karpenter Controller 분리: Karpenter Controller가 생성한 노드에서 Karpenter Controller가 동작하는 것을 방지하기 위해 Taint & Toleration 설정.
    • 다중 Node Pool 운영: RI 계약된 ASG 노드와 Karpenter On-demand 노드를 함께 운영하며, Spot Instance Nodepool과 On-demand Instance Nodepool을 분리하여 disruption 정책을 다르게 적용하고 weight 설정을 통해 Spot Instance 우선 할당.
    • 토폴로지 분배 제약 조건(TopologySpreadConstraints)을 사용하여 각 AZ에 파드가 균등하게 배포되도록 설정.
    • Kubelet 설정: Reserved 영역 지정, Image Garbage Collection WaterMark 설정, evictionHard 설정 등을 통해 노드 안정성 확보.
    • 비업무 시간에는 Karpenter 노드가 중지되도록 CronJob과 Python code를 활용하여 비용 효율성 증대.
  • Karpenter 운영 시 고려사항
    • Karpenter는 Pod의 Pending 상태를 감지하여 노드를 늘리는 단순 메커니즘이지만, 시스템에 큰 영향을 미치므로 안정적인 운영을 위해 많은 전략 및 테스트가 필요함.
    • Descheduler와 Karpenter의 시너지 효과를 기대했으나, EKS의 기본 ScoringStrategy로 인해 HighNodeUtilization 기능이 제대로 동작하지 않음.
    • Spot Instance 할당 시 instance-type을 지정하여 원하는 타입의 인스턴스를 할당받도록 함.
원문 보기

Next Feeds

올리브영 결제 이야기 Part - 4

올리브영 결제 이야기 Part - 4

올리브영 주문/결제 파트는 올영세일 기간 동안 Datadog 모니터링, Slack 알림, 배치 검증 시스템 등을 통해 안정적인 쇼핑 환경을 제공하고, 지속적인 개선을 추구합니다.

올리브영올영세일주문결제Datadog모니터링
2024. 6. 25.
올리브영
Google Cloud Next 2024 참관 후기 3편 - Generative AI with Enterprise Data

Google Cloud Next 2024 참관 후기 3편 - Generative AI with Enterprise Data

Google Cloud Next 2024 참관 후기를 통해 Generative AI와 기업 데이터 활용 방안, Google Cloud의 강점을 분석합니다.

Generative AIGoogle Cloud기업 데이터RAGlangchain
2024. 6. 25.
카카오페이
Spring Message Source를 통한 메세지 국제화 적용

Spring Message Source를 통한 메세지 국제화 적용

Spring MessageSource를 사용하여 메시지 국제화를 적용하고, IntelliJ에서 한글 깨짐 문제를 해결하는 방법을 설명합니다.

SpringMessageSource국제화다국어IntelliJ
2024. 6. 24.
현대자동차
LINE 클라이언트 개발자들이 만드는 '코드 리뷰 문화'

LINE 클라이언트 개발자들이 만드는 '코드 리뷰 문화'

LINE 개발팀의 코드 리뷰 문화 구축 노력과 코드 가독성 향상을 위한 방법, 그리고 건강한 개발 문화 조성에 대한 이야기입니다.

코드 리뷰코드 가독성개발 문화글로벌 협업린트
2024. 6. 24.
LY Corp
글로벌 서비스에서 지역 통신사 네트워크 이슈 트러블슈팅하기

글로벌 서비스에서 지역 통신사 네트워크 이슈 트러블슈팅하기

글로벌 서비스에서 특정 지역 통신사 네트워크 이슈를 데이터 분석과 Mobile Proxy를 통해 해결하고, TTD 개선을 위한 회고를 담고 있습니다.

트러블슈팅네트워크모바일 프록시SNIQoS
2024. 6. 24.
하이퍼커넥트
Tokenizer: LLM은 텍스트를 어떻게 받아들일까? (feat. Andrej Karpathy) #1

Tokenizer: LLM은 텍스트를 어떻게 받아들일까? (feat. Andrej Karpathy) #1

LLM이 텍스트를 이해하는 기본 단위인 토큰과 토크나이저의 원리(BPE) 및 구현 과정을 설명합니다.

LLM토큰TokenizerBPE인코딩
2024. 6. 23.
현대자동차