유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

실시간 경로탐색에 Multi-armed Banadit 기반 강화학습 도입하기 (feat. SCI급 논문게재)

kakao tech

2025. 9. 24.

0

#ai
#backend
  • 실시간 대용량 데이터 처리가 필수적인 내비게이션 경로 탐색에서, 다익스트라/A* 같은 알고리즘의 핵심은 '링크 코스트'를 정확히 산출하는 것입니다. 🗺️
  • 기존 링크 코스트 산출 방식은 고속도로 여부, 차선수 등 정적인 특성만 반영하여 버스 정차, 택시 정차, 고저차 등 상황에 따라 달라지는 비정량적이고 잠재적인 통행 가치를 반영하기 어려웠습니다. 🚧
  • 학계에서 제시된 기존 강화 학습 기반 경로 탐색 방법론은 계산 복잡도와 연산량이 높아 대규모 도로망의 실시간 교통 정보 반영에 한계가 있었습니다. 🧠
  • 카카오 모빌리티는 이러한 한계를 극복하고 실시간 대용량 데이터 처리 환경에 적합한 확장성(Scalability)을 갖춘 Multi-armed Bandit(MAB) 기반 강화 학습 방법론을 개발하여 SCI급 학술지에 게재했습니다. 🚀
  • MAB 방법론은 내비게이션 시스템(에이전트)이 안내하는 경로에서 사용자의 '경로 이탈' 행동을 탐험(Exploration)의 단서로 활용하여, 내비게이션 정보와 현실 환경 간의 불일치를 파악합니다. 🔄
  • 사용자의 링크별 '미준수율'을 로지스틱 함수로 변환하여 '링크 웨잇'을 산출하고, 이를 통행 시간에 곱해 링크 코스트를 최적화합니다. 이때 uc 파라미터는 과도한 페널티 방지 및 민감도 조절 역할을 합니다. 📊
  • uc 파라미터는 과거 내비게이션 요청 기록과 교통 정보를 기반으로 시뮬레이션 및 그리드 서치를 통해 오프라인에서 최적화되어 실제 사용자에게 영향을 주지 않고 하이퍼파라미터 튜닝이 가능합니다. 🧪
  • 이 방법론은 동작대교 대기열, 좁은 골목길, 여의도 환승센터의 Blocking Effect, 부각산의 고저차 등 기존 방식이 반영하기 어려웠던 잠재적 요인들을 링크 코스트에 최적화된 수치로 반영할 수 있음을 입증했습니다. 🏙️
  • 온라인 성능 평가 결과, 평균 Path Compliance Rate(PCR)가 68.12%에서 68.78%로 증가했으며, 특히 경로가 변경된 사례에서는 64.2%에서 70.87%로 크게 향상되었습니다. ✅
  • 고속도로 우선, 큰길 우선 등 다양한 경로 탐색 옵션에서도 안정적인 PCR 증가를 보였고, 경로 길이, 실제 주행 시간 등 6가지 지표 모두에서 부작용 없이 유의미한 경로 품질 향상을 달성하여 방법론의 견고성을 입증했습니다. 👍
  • 본 알고리즘은 실제 카카오 모빌리티의 온라인 서비스에 성공적으로 적용되어 대규모 도로망 및 실시간 환경에서의 확장성(Scalability)을 성공적으로 증명했습니다. 🌐

Recommanded Videos