TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

LLM практически всегда понимают, когда их тестируют: свежее исследование от лабораторий MATS и Apollo Research

Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.

Самое яркое и жутковатое проявление такой осознанности – это evaluation awareness, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато эффектом Хоторна (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).

Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:

Ведущие LLM (Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4.1) правильно определяют, что их тестируют, более чем в 80 процентов случаев.

При этом на агентских сценариях точность вырастает до ≈ 95%.

Результаты примерно сопоставимы с человеком. Люди правильно классифицируют тесты всего на несколько процентных пунктов лучше.

Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.

Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.

www.arxiv.org/abs/2505.23836

LLM практически всегда понимают, когда их тестируют: свежее исследование от лабораторий MATS и Apollo Research

Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.

Самое яркое и жутковатое проявление такой осознанности – это evaluation awareness, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато эффектом Хоторна (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).

Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:

Ведущие LLM (Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4.1) правильно определяют, что их тестируют, более чем в 80 процентов случаев.

При этом на агентских сценариях точность вырастает до ≈ 95%.

Результаты примерно сопоставимы с человеком. Люди правильно классифицируют тесты всего на несколько процентных пунктов лучше.

Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.

Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.

www.arxiv.org/abs/2505.23836
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Secrets








Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)