TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Просочились детали про открытую модель от OpenAI (https://hottg.com/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.

Что известно про модель:

* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device

* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (https://hottg.com/gonzo_ML/2821). Надеюсь, в отличие от Гугла (https://hottg.com/gonzo_ML/3447) список языков опубликуют?

* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (https://hottg.com/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).

* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.

* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!

Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.

Самый главный вопрос -- название модели пока неизвестно.

Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (https://hottg.com/gonzo_ML/2976) -- помните двухголосые подкасты?

Просочились детали про открытую модель от OpenAI (https://hottg.com/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.

Что известно про модель:

* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device

* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (https://hottg.com/gonzo_ML/2821). Надеюсь, в отличие от Гугла (https://hottg.com/gonzo_ML/3447) список языков опубликуют?

* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (https://hottg.com/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).

* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.

* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!

Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.

Самый главный вопрос -- название модели пока неизвестно.

Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (https://hottg.com/gonzo_ML/2976) -- помните двухголосые подкасты?


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)