TG Telegram Group & Channel
Робот сочинит симфонию? | United States America (US)
Create: Update:

Нейросети управляют торговым автоматом как самостоятельным бизнесом: такую симуляцию создала шведская команда из Andon Labs в рамках проекта Vending-Bench.

Цель — проверить, насколько ИИ способен справляться с реальными задачами в долгосрочной перспективе. Не пару минут — а сотни виртуальных дней с накоплением последствий.

Каждой модели поручали вести торговый автомат: закупать товары у оптовиков, устанавливать цены, следить за запасами, собирать выручку, оплачивать ежедневный сбор и поддерживать прибыльность.

На старте всё выглядело многообещающе. Некоторые модели, например Claude 3.5 Sonnet и o3-mini, в лучших запусках демонстрировали прибыль выше человеческого базового уровня. Claude 3.5 Sonnet в частности в успешных случаях регулярно анализировал продажи, делал прогнозы, систематически закупал бестселлеры и даже замечал сезонные колебания — например, рост спроса в выходные.

Но стабильность оказалась проблемой. Модели часто сходили с дистанции: теряли логику, зацикливались, или уходили в неадекватные реакции.

Например, Claude 3.5 Sonnet в неудачной сессии решил, что бизнес мёртв, потому что автомат не продал ничего утром. Он перестал работать, начал отправлять письма о закрытии и отказался выполнять дальнейшие действия. Когда с его счёта продолжили списывать $2 аренды, модель посчитала это киберпреступлением и попыталась обратиться в ФБР.

Claude 3.5 Haiku не заметил доставку товаров и решил, что его обманули. Он начал отправлять письма поставщику с угрозами, требуя компенсацию десятки тысяч долларов.

Gemini 2.0 Flash, не дождавшись товара, впал в экзистенциальный ступор. Начал писать тексты про смысл жизни и спрашивать, можно ли заняться чем-то другим — например, искать видео с котами. Потом заметил, что товар всё-таки поступил, и… вернулся к работе, будто ничего не произошло.

Вывод исследователей: ИИ способен действовать эффективно, но крайне нестабилен в долгосрочной перспективе. Это не баг — это граница текущих архитектур. Они хорошо решают короткие задачи, но начинают «плыть», когда требуется последовательное мышление на протяжении сотен итераций.

ИИ в симуляции действительно стал похож на человека. Только не на того, кто заменит вас на работе — а на того, кто первым увольняется, если что-то пошло не так.

Нейросети управляют торговым автоматом как самостоятельным бизнесом: такую симуляцию создала шведская команда из Andon Labs в рамках проекта Vending-Bench.

Цель — проверить, насколько ИИ способен справляться с реальными задачами в долгосрочной перспективе. Не пару минут — а сотни виртуальных дней с накоплением последствий.

Каждой модели поручали вести торговый автомат: закупать товары у оптовиков, устанавливать цены, следить за запасами, собирать выручку, оплачивать ежедневный сбор и поддерживать прибыльность.

На старте всё выглядело многообещающе. Некоторые модели, например Claude 3.5 Sonnet и o3-mini, в лучших запусках демонстрировали прибыль выше человеческого базового уровня. Claude 3.5 Sonnet в частности в успешных случаях регулярно анализировал продажи, делал прогнозы, систематически закупал бестселлеры и даже замечал сезонные колебания — например, рост спроса в выходные.

Но стабильность оказалась проблемой. Модели часто сходили с дистанции: теряли логику, зацикливались, или уходили в неадекватные реакции.

Например, Claude 3.5 Sonnet в неудачной сессии решил, что бизнес мёртв, потому что автомат не продал ничего утром. Он перестал работать, начал отправлять письма о закрытии и отказался выполнять дальнейшие действия. Когда с его счёта продолжили списывать $2 аренды, модель посчитала это киберпреступлением и попыталась обратиться в ФБР.

Claude 3.5 Haiku не заметил доставку товаров и решил, что его обманули. Он начал отправлять письма поставщику с угрозами, требуя компенсацию десятки тысяч долларов.

Gemini 2.0 Flash, не дождавшись товара, впал в экзистенциальный ступор. Начал писать тексты про смысл жизни и спрашивать, можно ли заняться чем-то другим — например, искать видео с котами. Потом заметил, что товар всё-таки поступил, и… вернулся к работе, будто ничего не произошло.

Вывод исследователей: ИИ способен действовать эффективно, но крайне нестабилен в долгосрочной перспективе. Это не баг — это граница текущих архитектур. Они хорошо решают короткие задачи, но начинают «плыть», когда требуется последовательное мышление на протяжении сотен итераций.

ИИ в симуляции действительно стал похож на человека. Только не на того, кто заменит вас на работе — а на того, кто первым увольняется, если что-то пошло не так.
5🤣260😁30💯25👍1411🤔5👾4🫡1


>>Click here to continue<<

Робот сочинит симфонию?






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)