Статья-zeitgeist от рисечера из OpenAI.
Главная тема всех разговоров в последние 3 месяцев — RL в LLM и агентах наконец-таки заработал! Начинается второй тайм.
RL стал переносимым. Большие языковые модели + шаг «подумать» + короткое RL-дообучение теперь решают код, математику, длинные вопросы и работу с компьютером. Претрейн даёт знания, рассуждение расширяет пространство действий.Один и тот же метод начинает работать почти везде, а не в узком домене файнтьюна, как раньше.
Появился готовый "рецепт" универсального агента. Берём LLM, разрешаем ей размышлять текстом, слегка подкрепляем на конкретной задаче. Почему: ключевыми оказались не алгоритмы RL, а сильные языковые приёмы (priors) и возможность размышлять.
ИИ побеждает в шахматах, Go, SAT и олимпиадах, а экономика почти не меняется. Почему: тесты далеки от реальных рабочих процессов. Эффект: нужны задачи, где улучшение метрики прямо увеличивает ценность для пользователя или бизнеса. Чтобы ИИ дал x10 мирового ВВП нам уже не нужны более умные ИИ. Скорее, наоборот, чуть тупее, специализированнее и главное надежнее.
В ИИ стартапах навыки продакт-мышления выходят на первый план. Теперь важно не как обучить, а "что именно стоит решать" и "как измерить экономическую выгоду". Исследователь превращается в продукт-менеджера — определяет проблему, метрику и путь к реальному эффекту.
Нужно больше минералов. И минералов ли?
>>Click here to continue<<