TG Telegram Group & Channel
LLM под капотом | United States America (US)
Create: Update:

🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель

Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее.

Свежая версия 0528 модели deepseek-r1 немного улучшила свой предыдущий результат и даже обошла по очкам GPT-4.1.

Но самое интересное - гораздо ниже, на 20-м месте бенчмарка. Deepseek взяли небольшую модельку - qwen3-8b и дообучили ее на цепочках размышлений от DeepSeek-R1-0528. Получившийся "дистиллят" внезапно неплохо умеет рассуждать по планам, которые зашиты в SO CoT моего бенчмарка. Она показывает результат на уровне gpt-4o-2024-08-06!

И это при том, что я эту модельку запускал через API NovitaAI, который Structured Outputs не поддерживает в принципе.

Это настолько хорошо для такой маленькой модельки, что прямо интересно. Кто-нибудь еще использовал эту модель в режиме с Custom Chain of Thought?

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.

🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель

Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее.

Свежая версия 0528 модели deepseek-r1 немного улучшила свой предыдущий результат и даже обошла по очкам GPT-4.1.

Но самое интересное - гораздо ниже, на 20-м месте бенчмарка. Deepseek взяли небольшую модельку - qwen3-8b и дообучили ее на цепочках размышлений от DeepSeek-R1-0528. Получившийся "дистиллят" внезапно неплохо умеет рассуждать по планам, которые зашиты в SO CoT моего бенчмарка. Она показывает результат на уровне gpt-4o-2024-08-06!

И это при том, что я эту модельку запускал через API NovitaAI, который Structured Outputs не поддерживает в принципе.

Это настолько хорошо для такой маленькой модельки, что прямо интересно. Кто-нибудь еще использовал эту модель в режиме с Custom Chain of Thought?

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
🔥4630👍6🤩2


>>Click here to continue<<

LLM под капотом






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)