TG Telegram Group & Channel
e/acc | United States America (US)
Create: Update:

Статья-zeitgeist от рисечера из OpenAI.

Главная тема всех разговоров в последние 3 месяцев — RL в LLM и агентах наконец-таки заработал! Начинается второй тайм.

RL стал переносимым. Большие языковые модели + шаг «подумать» + короткое RL-дообучение теперь решают код, математику, длинные вопросы и работу с компьютером. Претрейн даёт знания, рассуждение расширяет пространство действий.Один и тот же метод начинает работать почти везде, а не в узком домене файнтьюна, как раньше.

Появился готовый "рецепт" универсального агента. Берём LLM, разрешаем ей размышлять текстом, слегка подкрепляем на конкретной задаче. Почему: ключевыми оказались не алгоритмы RL, а сильные языковые приёмы (priors) и возможность размышлять.

ИИ побеждает в шахматах, Go, SAT и олимпиадах, а экономика почти не меняется. Почему: тесты далеки от реальных рабочих процессов. Эффект: нужны задачи, где улучшение метрики прямо увеличивает ценность для пользователя или бизнеса. Чтобы ИИ дал x10 мирового ВВП нам уже не нужны более умные ИИ. Скорее, наоборот, чуть тупее, специализированнее и главное надежнее.

В ИИ стартапах навыки продакт-мышления выходят на первый план. Теперь важно не как обучить, а "что именно стоит решать" и "как измерить экономическую выгоду". Исследователь превращается в продукт-менеджера — определяет проблему, метрику и путь к реальному эффекту.

Нужно больше минералов. И минералов ли?

Статья-zeitgeist от рисечера из OpenAI.

Главная тема всех разговоров в последние 3 месяцев — RL в LLM и агентах наконец-таки заработал! Начинается второй тайм.

RL стал переносимым. Большие языковые модели + шаг «подумать» + короткое RL-дообучение теперь решают код, математику, длинные вопросы и работу с компьютером. Претрейн даёт знания, рассуждение расширяет пространство действий.Один и тот же метод начинает работать почти везде, а не в узком домене файнтьюна, как раньше.

Появился готовый "рецепт" универсального агента. Берём LLM, разрешаем ей размышлять текстом, слегка подкрепляем на конкретной задаче. Почему: ключевыми оказались не алгоритмы RL, а сильные языковые приёмы (priors) и возможность размышлять.

ИИ побеждает в шахматах, Go, SAT и олимпиадах, а экономика почти не меняется. Почему: тесты далеки от реальных рабочих процессов. Эффект: нужны задачи, где улучшение метрики прямо увеличивает ценность для пользователя или бизнеса. Чтобы ИИ дал x10 мирового ВВП нам уже не нужны более умные ИИ. Скорее, наоборот, чуть тупее, специализированнее и главное надежнее.

В ИИ стартапах навыки продакт-мышления выходят на первый план. Теперь важно не как обучить, а "что именно стоит решать" и "как измерить экономическую выгоду". Исследователь превращается в продукт-менеджера — определяет проблему, метрику и путь к реальному эффекту.

Нужно больше минералов. И минералов ли?


>>Click here to continue<<

e/acc




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)