🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
>>Click here to continue<<

