🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель
Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее.
Свежая версия 0528 модели deepseek-r1 немного улучшила свой предыдущий результат и даже обошла по очкам GPT-4.1.
Но самое интересное - гораздо ниже, на 20-м месте бенчмарка. Deepseek взяли небольшую модельку - qwen3-8b и дообучили ее на цепочках размышлений от DeepSeek-R1-0528. Получившийся "дистиллят" внезапно неплохо умеет рассуждать по планам, которые зашиты в SO CoT моего бенчмарка. Она показывает результат на уровне gpt-4o-2024-08-06!
И это при том, что я эту модельку запускал через API NovitaAI, который Structured Outputs не поддерживает в принципе.
Это настолько хорошо для такой маленькой модельки, что прямо интересно. Кто-нибудь еще использовал эту модель в режиме с Custom Chain of Thought?
Ваш, @llm_under_hood 🤗
PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
>>Click here to continue<<
