Яндекс анонсировал новое поколение больших языковых моделей — YandexGPT 5, включающее Pro и Lite версии.
YandexGPT 5 Lite 8B уже доступна на Hugging Face. Модель обучалась в два этапа: претрейн на массиве русско- и англоязычных текстов объёмом 15T токенов и этап Powerup на высококачественных данных объёмом 320B токенов. Она опубликована без финального этапа обучения, этических фильтров и алайнмента, что делает её удобной для исследований и дообучения под специфические задачи разработчиков.
Модель имеет контекстное окно 32k токенов, а в своей категории достигает паритета с мировыми SOTA по ключевым бенчмаркам для pretrain-моделей.
В разработке Pro-версии применены значительные улучшения: переработанный датасет с более сложными и разнообразными примерами, усложнённые тренировочные задания, внедрение DPO и PPO с собственной модификацией LogDPO против «разучивания», оптимизация через YaFSDP (-25% вычислительных ресурсов), гибридное обучение с использованием базовых настроек Qwen.
По тестам YandexGPT 5 Pro:
⚠️Pro-версия уже внедрена в чат с Алисой и доступна через API в Yandex Cloud, где может использоваться как в базовой версии, так и с подключением к Поиску.
@ai_machinelearning_big_data
#AI #ML
>>Click here to continue<<
