🇨🇳 Утекшие данные раскрыли китайскую AI-машину цензуры: Технические подробности
В сеть утекли данные, раскрывающие детали разработки в Китае AI-системы для автоматической цензуры контента, признанного "чувствительным" китайским правительством. Утекшая база данных, изученная TechCrunch, содержит 133 000 примеров контента, использованных для обучения этой системы.
Технические детали AI-цензора:
* Обучение на "чувствительном" контенте: Система на базе Large Language Model (LLM) обучается на примерах, включающих жалобы на бедность в сельской местности, новости о коррупции чиновников КПК, и призывы о помощи от предпринимателей, столкнувшихся с вымогательством полиции.
* Цель системы: Автоматическая фильтрация и маркировка контента, "неугодного" китайскому правительству. Предполагаемое основное применение - цензура китайских граждан в сети, но возможно и использование для улучшения цензурных возможностей китайских AI-моделей.
* Преимущества перед традиционной цензурой: В отличие от ручной фильтрации по ключевым словам, AI позволяет значительно повысить эффективность и "гранулярность" контроля информации, выявляя даже скрытые формы "инакомыслия", включая "политическую сатиру" и исторические аналогии, критикующие текущую власть.
* Приоритетные темы для цензуры: Социально-политические темы, способные вызвать общественное недовольство:
Скандалы, связанные с загрязнением окружающей среды и безопасностью продуктов питания.
Финансовое мошенничество.
Трудовые споры.
"Политическая сатира" и критика "текущих политических деятелей" (даже через исторические аллюзии).
"Тайваньская политика".
Военные вопросы: передвижения войск, учения, вооружения.
* Обнаружение "мягкой" оппозиции: Система нацелена на выявление даже неявного несогласия, например, анекдотов, иллюстрирующих "мимолетность власти" через идиому "когда дерево падает, обезьяны разбегаются" (китайская поговорка).
* Упоминания "Тайваня": Слово "Тайвань" (台湾) упоминается в обучающих данных более 15 000 раз, что подчеркивает фокус на тайваньской тематике.
* Предназначение для "работы с общественным мнением": Датасет помечен как предназначенный для "public opinion work", что указывает на его связь с китайскими государственными органами, вероятно, с Cyberspace Administration of China (CAC), отвечающей за цензуру и пропаганду в интернете.
Утечка данных подтверждает тенденцию использования AI для усиления репрессивных мер. Ранее OpenAI сообщала об использовании китайскими структурами LLM для мониторинга антиправительственных постов и дискредитации китайских диссидентов. В отличие от простых алгоритмов блокировки по ключевым словам, AI позволяет осуществлять более тонкую и масштабную цензуру, постоянно совершенствуясь по мере обучения на новых данных.
>>Click here to continue<<