S
skplanet
December 2, 20252회
AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)

간단 소개
SK플래닛의 AI Voice Conversion 기술은 LLM과 생성 모델을 활용하여 개인화된 음성 및 노래를 생성하며, 그 핵심 기술과 평가 지표, 한계점을 소개합니다.
AI Summary
AI 음성 변환 기술 개요
- SK AI SUMMIT에서 소개된 AI Voice Conversion 기술은 Large Language Model과 Generative Model 발전에 기반합니다.
- Text2Speech의 한계를 넘어, Speech Voice Conversion 및 Singing Voice Conversion을 통해 사람처럼 말하고 노래하는 개인화된 콘텐츠 제작이 가능합니다.
- Speech Voice Conversion은 원본 음성의 내용과 리듬을 유지하며 타겟 화자의 음색과 톤으로 변환하는 기술입니다.
- Singing Voice Conversion은 원본 노래의 내용, 리듬, 멜로디를 유지하며 타겟 화자의 음색과 톤으로 노래를 생성합니다. Zero-Shot Voice Conversion Network 구성
- Feature Extractor는 음성에서 semantic, pitch, timbre/style 특징을 분리 추출합니다.
- Timbre Extractor는 timbre leakage를 완화하고 타겟 음색을 정제하며, Length Regulator는 내용과 소리의 시간적 일관성을 정렬합니다.
- **Diffusion Transformer Decoder (U-DiT)**는 스타일, 피치, 내용 정보를 결합하여 고품질 Mel-Spectrogram을 생성합니다.
- **Vocoder (BigVGAN)**는 생성된 Mel-Spectrogram을 실제 들을 수 있는 waveform으로 변환하여 최종 음성을 완성합니다. 평가 지표 및 한계점
- Speaker Cosine Similarity로 두 음성의 화자 특성 유사도를 평가하며, F₀ Correlation 및 F₀ RMSE로 피치 궤적의 유사도와 음정 편차를 측정합니다.
- 주요 한계점은 생성 시간/GPU 자원, , 문제이며, , , 등으로 대응합니다.
Next Feeds

AWS Managed Microsoft AD(하이브리드 에디션)으로 Active Directory 도메인을 AWS로 확장하기
AWS Managed Microsoft AD 하이브리드 에디션은 기존 Active Directory를 AWS로 확장하여 하이브리드 환경에서 AD 워크로드 마이그레이션 및 관리를 간소화합니다.
AWS Managed Microsoft ADActive Directory하이브리드 에디션워크로드 마이그레이션AWS Systems Manager
2025. 12. 1.
AWS

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)
NAVER ENGINEERING DAY 세션으로, Iceberg와 Materialized Views를 활용한 실시간 거래 리포트의 저지연 조회 및 확장성 확보 방안을 다룹니다.
IcebergMaterialized ViewsLow-Latency Queries실시간 거래 리포트NAVER ENGINEERING DAY
2025. 12. 1.
Naver d2

배달대행사 API 연동과 장애 대응 - 오늘드림 서비스 개발기
올리브영 '오늘드림' 서비스의 배달대행사 API 연동 전략, 콜백 API 리뉴얼 과정, 트랜잭션 장애 대응 및 교훈을 다룬다.
배달대행사 API오늘드림트랜잭션MSA장애 대응
2025. 12. 1.
올리브영
레거시 결제 원장을 확장 가능한 시스템으로
토스페이먼츠가 20년 된 레거시 결제 원장을 MySQL 기반의 확장 가능한 시스템으로 성공적으로 마이그레이션하고 운영하며 얻은 기술적 교훈.
결제 원장레거시 시스템마이그레이션확장성데이터 정합성
2025. 12. 1.
토스

Kafka Streams 윈도우 도입기
컬리는 스파이크성 트래픽 처리를 위해 Kafka Streams 텀블링 윈도우를 도입하며 겪은 문제와 해결 과정을 공유합니다.
Kafka Streams텀블링 윈도우스트림 시간Timestamp Extractor더미 이벤트
2025. 12. 1.
컬리

LLM Guardrails 2.0: 필터링을 넘어 추론 기반 보안 체계로 진화하는 AI 안전성 아키텍처
LLM Guardrails 2.0은 단순 필터링을 넘어 추론 기반의 다계층 AI 보안 체계로 진화하여, LLM의 안전한 기업 운영을 위한 핵심 인프라가 되고 있습니다.
LLM Guardrails 2.0AI 안전성추론 기반 보안에이전트 보안정책 엔진
2025. 12. 1.
교보dts