AI뉴스 - 고퀄 음성 AI, o1-pro API, 최고 수준 LG 추론 모델, GTC 2025, 휴머노이드 로봇 근황 등
- 오픈AI의 새로운 오디오 API: 음성 톤 및 감정 조절 가능 👍
- GPT-4 기반 트랜스크라이브 API: 기존보다 정확도 향상, 한국어 지원 📈
- 오픈AI의 o1-pro API: 고품질 음성 생성, 하지만 가격이 다소 비쌈 💸
- Gemini 2.0: 이미지 생성 및 변형 기능, 워터마크 제거 기능 논란 🔥
- Google의 Imagen: 필터 없이 이미지 생성 가능, XAI 스타트업 인수 🖼️
- Google의 멀티링구얼 네이티브 오디오 아웃풋: 자연스러운 언어 전환 가능 🗣️
- HeyGen의 디렉터 모드 아바타: 감정 표현 가능한 AI 아바타 생성 🎭
- Google Gemini의 캔버스 기능 추가: HTML 코드 작성 및 미리보기 가능 💻
- Google Gemini의 오디오 오버뷰 기능 추가: AI 팟캐스트 생성 기능 추가 🎧
- CuT AI의 MOSI: 실시간 대화 가능한 오픈소스 AI 모델, 이미지 인식 기능 포함 👀
- Roblox의 3D 그래픽 생성 AI 모델: 오픈소스로 공개, 게임 제작에 유용 🎮
- Stability AI의 3D 이미지 변환 모델: 사진을 3D로 변환, 비상업적 라이선스 🔄
- Reimagine Master: 특정 뷰를 기반으로 다른 뷰 생성 가능, 영상 편집에 유용 🎥
- Alibaba의 LHM: 전신 이미지를 3D 애니메이션으로 변환, 오픈소스 및 상업적 사용 가능 🕺
- 워싱턴 대학의 Music Infuser: 음악에 맞춰 춤 동작 생성 🎶
- Motion Streamer: 텍스트 기반 동작 생성 및 스트리밍 가능 🤖
- AudioX: 텍스트, 이미지, 비디오 기반 오디오 생성 및 편집 가능 🎼
- 보케 디퓨전: 이미지 배경 보케 효과 추가 💫
- Picalabs: 영상 내 객체 조작 가능, 특수 효과 쉽게 추가 가능 ✨
- 엔비디아 GTC 2025: 차세대 AI 칩 공개, GDX Spark 미니 AI 연구용 PC 공개 💡
- 엔비디아 Isaac Gym: 휴머노이드 로봇 개발 위한 오픈소스 모델 공개 ⚙️
- 보스턴 다이나믹스: 새로운 로봇 움직임 공개, 영화 촬영 및 광고 제작 연구 🎬
- Unitree 로봇: 향상된 움직임 및 내구성 시연 💪
- 테슬라 옵티머스: 새로운 모델 생산 중, 대량 생산 계획 발표 🤖
- 엔트로픽: 클로드의 실시간 검색 기능 추가, 한국 지사 설립 추진 🇰🇷
- LG의 X41Deep: 세계 최고 수준의 추론 모델, 오픈소스 공개 (상업적 사용 제한) 🌐
- 레벨스 아이오 바이브 코딩 게임잼: 바이브 코딩으로 만든 게임 대회 개최 🎉
- 커피 코더: 스크린샷으로 앱 만드는 서비스 출시 📸
- 바이트댄스: 딥시크의 추론 강화 학습법 오픈소스 공개 💻
- 어도비: AI 에이전트 기반 디지털 마케팅 에이전트 개발 🤖
- 메타: AI 기반 댓글 생성 기능 테스트 중 💬
- AI의 유머 정복: AI가 인간보다 더 재밌는 컨텐츠 생성 가능 🤣
- AI의 의료 진료 정확도 향상: 의료진의 무시 또는 사용법 미숙 문제 발생 🩺
- 세마트반: AI 사용 능력 중요성 강조, 적응력 및 메타 학습 능력 강조 🧠
- UAE의 AI 투자 확대: 미국 스타게이트의 세 배 규모 투자 💰
- AI 기반 투자 관리: 딥시크 창립자의 AI 투자 성공 사례 언급 💸