TG Telegram Group & Channel
LLM под капотом | United States America (US)
Create: Update:

LLM Бенчмарк Claude 4

Модель Claude Sonnet 4, которой пользуется большинство, значительно выросла в очках сравнению со своим предшественником - Sonnet 3.7. Причем, прогресс есть во всех категориях, кроме сложных BI задач.

Кстати, пусть Claude Sonnet и не в топах по работе с зубодробительным кодом и легаси решениями, но если нужно быстро набросать симпатичный web интерфейс, то альтернативе Sonnet пока нет.

Claude Opus 4 - стал немного хуже, чем Claude 3.7 Sonnet Thinking

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.

LLM Бенчмарк Claude 4

Модель Claude Sonnet 4, которой пользуется большинство, значительно выросла в очках сравнению со своим предшественником - Sonnet 3.7. Причем, прогресс есть во всех категориях, кроме сложных BI задач.

Кстати, пусть Claude Sonnet и не в топах по работе с зубодробительным кодом и легаси решениями, но если нужно быстро набросать симпатичный web интерфейс, то альтернативе Sonnet пока нет.

Claude Opus 4 - стал немного хуже, чем Claude 3.7 Sonnet Thinking

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.


>>Click here to continue<<

LLM под капотом






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)