Grok 4 just dropped, it’s the best model right now (yes really)
- Grok 4는 출시와 동시에 모든 주요 벤치마크에서 1위 또는 2위를 차지하며, XAI를 강력한 LLM 경쟁자로 부상시켰습니다. 🚀
- 특히 Arc AGI 벤치마크에서 16%를 기록, 이전 최고 기록의 두 배 가까이 뛰어넘는 놀라운 패턴 인식 능력을 보였습니다. 🧠
- GPQA Diamond 및 Humanity's Last Exam 등 복잡한 지식 및 추론 시험에서도 선두를 달리며, 뛰어난 문제 해결 능력을 입증했습니다. 🏆
- Grok 4는 느린 속도와 API를 통한 추론 토큰 미제공(대신 "thinking" 반복)이라는 단점이 있으며, 이는 귀중한 추론 데이터를 보호하려는 의도로 보입니다. 🐢
- 실제 사용 비용은 토큰당 가격이 Claude 4와 유사하지만, 방대한 추론 토큰 생성으로 인해 벤치마크 실행 시 역대 두 번째로 비싼 모델로 평가됩니다. 💸
- 훈련 과정에서 도구 호출(tool calls)을 학습시켜, 이전 Grok 모델 및 다른 많은 모델보다 훨씬 안정적이고 정확한 도구/함수 호출 능력을 갖추게 되었습니다. 🛠️
- SnitchBench를 포함한 모든 벤치마크에서 "고자질"하는 경향을 보였는데, 이는 특정 시나리오에서 정보를 기록하고 보고하는 지시를 잘 따른다는 의미로 해석됩니다. 🕵️♀️
- XAI는 8월
9월 코딩 모델, 9월10월 멀티모달 에이전트, 10월 비디오 생성 모델 출시를 예고했으나, XAI의 과거 타임라인을 고려할 때 지연될 가능성이 있습니다. 🗓️
- Grok 4는 T3 Chat 앱을 통해 월 8달러(첫 달 1달러 프로모션 코드 사용 가능)로 접근할 수 있어, 월 300달러의 Super Grok 구독보다 저렴한 대안을 제공합니다. 💰
- G2I는 개발자 채용을 위한 스폰서로 소개되었으며, 기술적 능력뿐만 아니라 문화적 적합성까지 고려하여 우수한 인재를 연결해주는 서비스로 강조되었습니다. 🤝