LLM Бенчмарк Claude 4
Модель Claude Sonnet 4, которой пользуется большинство, значительно выросла в очках сравнению со своим предшественником - Sonnet 3.7. Причем, прогресс есть во всех категориях, кроме сложных BI задач.
Кстати, пусть Claude Sonnet и не в топах по работе с зубодробительным кодом и легаси решениями, но если нужно быстро набросать симпатичный web интерфейс, то альтернативе Sonnet пока нет.
Claude Opus 4 - стал немного хуже, чем Claude 3.7 Sonnet Thinking
Ваш, @llm_under_hood 🤗
PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
>>Click here to continue<<
