Недавно вышла новая большая модель от Meta — LLama 3.1 405B. Эти цифры означают, что у неё 405 миллиардов параметров. Запускать такие модели на собственном компьютере — дело неблагодарное, но протестировать самую мощную модель, доступную в опенсорсе, очень хочется. Что делать? Тестировать её в POE!
Мои стандартные тесты:
1. Написание сейлз писем (русский \ английский).
2. Коррекция моих кривых текстов (русский \ английский).
3. Написание Telegram-бота на Python.
4. Коучинг \ редактура эмоционального окраса сообщений.
5. Поисковый запрос (на этот раз я просил порекомендовать, где искупаться между Дюссельдорфом и Амстердамом).
Во всех задачах я измерял
Участники эксперимента: GPT-4o, GPT-4mini, LLama 3.1 405B, Gemini 1.5 Pro, Claude 3.5 Sonnet.
Лист победителей:
2. GPT-4mini: 84%
3. LLama 3.1 405B: 81%
4. Gemini 1.5 Pro: 93%!!!!!
5. Claude 3.5 Sonnet:85%
После этого я решил проверить,а что там на Арене ЛЛМок - и там тоже лидирует гугл
@aihappens
>>Click here to continue<<