⚡В понедельник компания OpenAI представила новую версию генеративной сети GPT-4o.
Это самая мощная мультимодальная версия, которая доступна всем желающим бесплатно.
GPT-4o или GPT-4 Omni — сразу работает с несколькими форматами: аудио, видео, картинками и текстами. Хотите, прочитает вам сказку на ночь с разными эмоциями или выступит в роли комментатора в игре «Камень, ножницы, бумага».
Коротко о том, что еще может новая модель и чем отличается от предыдущих
Голосовой ассистент распознает речь и поддерживает диалоги в лайф-режиме. Время отклика на аудиозапросы в среднем 0,3 секунды (аналогично реакции человека). Никакого роботизированного голоса — только живые эмоции, интонации и смех. Полноценный слушатель с таким качеством разговора, который вы не отличите от реального человека.
Анализ видео и изображений — GPT-4o умеет распознавать даже сцены и действия из видео. Если «скормить» модели видео подкаста, то на выходе получите транскрибацию ролика с выделением разных спикеров.
Мультимодальность позволяет одной нейросети обрабатывать все входные данные в виде изображения, текста и звука. Можно легко общаться с моделью посредством видео — к примеру, показать через камеру телефона задачу по геометрии и попросить объяснить.
GPT-4o достигает такой же эффективности, что и GPT-4 Turbo в обработке текстов на английском языке и кода, но заметно улучшена в работе с другими языками, изображениями и звуками.
Сейчас нейросеть доступна только с текстовыми и визуальными возможностями. Когда ждать поддержку видео и аудио — неизвестно. Но у некоторых платных подписчиков ChatGPT уже есть доступ к новой модели, в том числе к приложению для MacOS (для пользователей тарифа Plus).
Ушли тестить!
>>Click here to continue<<