🫦 GPT-4o — Вот вам "HER" от OpenAI
tl:dr End-to-End Image + Text + Speech версия GPT-4
До появления GPT-4o использование режима Voice Mode с ChatGPT позволяло получать ответы со средним временем задержки в 2.8 секунды для GPT-3.5 и 5.4 секунды для GPT-4. В этом режиме были задействованы три отдельные модели:
1. Speech-to-Text переводила аудио в текст
2. Затем уже GPT-3.5 или GPT-4 обрабатывала текст и генерировала ответ.
3. И, наконец, третья модель переводила текст обратно в аудио.
Это означает, что модель GPT-4 не имеет доступа ко всей информации — она не воспринимает интонации, не различает голоса разных собеседников и не учитывает фоновые шумы, она не может воспроизводить смех, пение или передавать эмоции.
GPT-4o представляет собой новую модель, обученную end-to-end на трех доменах, включая текст, изображения и аудио.
👁 Блог OpenAI
🎞 YouTube OpenAI
Го тестить:
✨ Модель ChatGPT "HER" ✨
>>Click here to continue<<
