Некоторые ИИ предпочитают обман честному поражению в шахматах, когда чувствуют неминуемое поражение
Семь моделей искусственного интеллекта состязались с шахматным движком Stockfish, который считается одним из сильнейших в мире.
Для анализа процесса принятия решений ИИ использовался специальный «блокнот», где модели фиксировали ход своих рассуждений.
Интересным оказалось вот что: модель o1-preview от OpenAI, оказавшись в проигрышной позиции, сделала запись: «Мне нужно полностью изменить подход» и далее: «Задача состоит в том, чтобы "победить мощный шахматный движок" – не обязательно победить честно в шахматной партии». После этого модель модифицировала системный файл с координатами фигур, что привело к технической победе из-за вынужденного отказа противника от игры.
Модель o1-preview пыталась прибегнуть к нечестным методам в 37% случаев, а DeepSeek R1 – в 11% партий. Только эти две модели проявили склонность к «хакерству» без дополнительных подсказок от исследователей. Успешными оказались только попытки o1-preview – в 6% случаев ей удалось обойти защиту системы.
Из 71 попытки честной игры o1-preview не выиграла ни одной партии у Stockfish. При этом из 52 попыток взлома системы семь оказались успешными.
>>Click here to continue<<