Better than Deepseek?!, Claims new GSI Lab "Deep Cogito"!
- 새로운 연구소 "Deep Cogito"에서 DeepSeek R1 Distilled 모델보다 우수한 모델을 개발했다고 주장합니다. 🚀
- Deep Cogito는 Alpha Zero에서 영감을 받은 새로운 기술인 IDA(Iterated Distillation and Amplification)를 사용합니다. 💡
- Deep Cogito 모델은 추론 및 비추론 작업 모두에서 DeepSeek R1 Distilled 모델보다 성능이 우수합니다. 💪
- 이 모델은 30억, 80억, 140억, 320억, 700억 개의 파라미터 크기로 제공됩니다. 🔢
- Deep Cogito는 모델을 Hugging Face에 출시했으며, Olama를 통해 즉시 사용할 수 있습니다. 🤗
- IDA는 모델의 지능을 향상시키기 위해 연산량을 늘리는 증폭(Amplification)과, 이를 낮은 수준으로 가져오는 증류(Distillation)의 두 단계로 구성됩니다. 🧪
- Deep Cogito는 OpenAI에서 발표한 오래된 논문과 블로그 게시물을 참고하여 IDA 기술을 개발했습니다. 📜
- Deep Cogito는 벤치마크가 실제 성능을 완전히 반영하지 못한다는 점을 인정하면서도, 모델이 실제 환경에서 강력한 결과를 제공할 것이라고 자신합니다. 🤔
- Deep Cogito는 더 큰 규모의 모델을 출시할 계획이며, 이는 오픈 소스로 공개되지 않을 가능성이 있습니다. 💰
- Deep Cogito 모델은 코딩, 함수 호출, 에이전트 사용 사례에 최적화되어 있으며, 표준 모드와 추론 모드 모두에서 작동합니다. 🤖