TG Telegram Group & Channel
Data Science by ODS.ai 🦜 | United States America (US)
Create: Update:

🔪 ИИ, работай — а то…

Неожиданное признание сооснователя Google на конференции в Майами взорвало профессиональное сообщество. Оказывается, языковые модели действительно показывают более высокое качество ответов под воздействием «угроз физической расправы» — и это касается не только продуктов Google.

Механизм связан с техниками джейлбрейкинга, где агрессивные формулировки заставляют модель обходить встроенные ограничения. Парадокс в том, что попытки взломать защиту одновременно улучшают базовую производительность системы — побочный эффект, который разработчики предпочитают не афишировать.

Признание ставит индустрию перед выбором: либо эксплуатировать обнаруженную особенность для повышения эффективности, либо полностью блокировать подобные воздействия. Пока что побеждает второй подход — OpenAI уже запустила программы поиска уязвимостей в своих моделях.

#ИИ #Уязвимости #Джейлбрейк

@SecLabNews

Forwarded from SecurityLab.ru
🔪 ИИ, работай — а то…

Неожиданное признание сооснователя Google на конференции в Майами взорвало профессиональное сообщество. Оказывается, языковые модели действительно показывают более высокое качество ответов под воздействием «угроз физической расправы» — и это касается не только продуктов Google.

Механизм связан с техниками джейлбрейкинга, где агрессивные формулировки заставляют модель обходить встроенные ограничения. Парадокс в том, что попытки взломать защиту одновременно улучшают базовую производительность системы — побочный эффект, который разработчики предпочитают не афишировать.

Признание ставит индустрию перед выбором: либо эксплуатировать обнаруженную особенность для повышения эффективности, либо полностью блокировать подобные воздействия. Пока что побеждает второй подход — OpenAI уже запустила программы поиска уязвимостей в своих моделях.

#ИИ #Уязвимости #Джейлбрейк

@SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Data Science by ODS.ai 🦜






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)