TG Telegram Group & Channel
Компьютерный клуб | Технологии | United States America (US)
Create: Update:

🇨🇳 Утекшие данные раскрыли китайскую AI-машину цензуры: Технические подробности

В сеть утекли данные, раскрывающие детали разработки в Китае AI-системы для автоматической цензуры контента, признанного "чувствительным" китайским правительством. Утекшая база данных, изученная TechCrunch, содержит 133 000 примеров контента, использованных для обучения этой системы.

Технические детали AI-цензора:

* Обучение на "чувствительном" контенте: Система на базе Large Language Model (LLM) обучается на примерах, включающих жалобы на бедность в сельской местности, новости о коррупции чиновников КПК, и призывы о помощи от предпринимателей, столкнувшихся с вымогательством полиции.
* Цель системы: Автоматическая фильтрация и маркировка контента, "неугодного" китайскому правительству. Предполагаемое основное применение - цензура китайских граждан в сети, но возможно и использование для улучшения цензурных возможностей китайских AI-моделей.
* Преимущества перед традиционной цензурой: В отличие от ручной фильтрации по ключевым словам, AI позволяет значительно повысить эффективность и "гранулярность" контроля информации, выявляя даже скрытые формы "инакомыслия", включая "политическую сатиру" и исторические аналогии, критикующие текущую власть.

* Приоритетные темы для цензуры: Социально-политические темы, способные вызвать общественное недовольство:
Скандалы, связанные с загрязнением окружающей среды и безопасностью продуктов питания.
Финансовое мошенничество.
Трудовые споры.
"Политическая сатира" и критика "текущих политических деятелей" (даже через исторические аллюзии).
"Тайваньская политика".
Военные вопросы: передвижения войск, учения, вооружения.

* Обнаружение "мягкой" оппозиции: Система нацелена на выявление даже неявного несогласия, например, анекдотов, иллюстрирующих "мимолетность власти" через идиому "когда дерево падает, обезьяны разбегаются" (китайская поговорка).
* Упоминания "Тайваня": Слово "Тайвань" (台湾) упоминается в обучающих данных более 15 000 раз, что подчеркивает фокус на тайваньской тематике.
* Предназначение для "работы с общественным мнением": Датасет помечен как предназначенный для "public opinion work", что указывает на его связь с китайскими государственными органами, вероятно, с Cyberspace Administration of China (CAC), отвечающей за цензуру и пропаганду в интернете.

Утечка данных подтверждает тенденцию использования AI для усиления репрессивных мер. Ранее OpenAI сообщала об использовании китайскими структурами LLM для мониторинга антиправительственных постов и дискредитации китайских диссидентов. В отличие от простых алгоритмов блокировки по ключевым словам, AI позволяет осуществлять более тонкую и масштабную цензуру, постоянно совершенствуясь по мере обучения на новых данных.

🇨🇳 Утекшие данные раскрыли китайскую AI-машину цензуры: Технические подробности

В сеть утекли данные, раскрывающие детали разработки в Китае AI-системы для автоматической цензуры контента, признанного "чувствительным" китайским правительством. Утекшая база данных, изученная TechCrunch, содержит 133 000 примеров контента, использованных для обучения этой системы.

Технические детали AI-цензора:

* Обучение на "чувствительном" контенте: Система на базе Large Language Model (LLM) обучается на примерах, включающих жалобы на бедность в сельской местности, новости о коррупции чиновников КПК, и призывы о помощи от предпринимателей, столкнувшихся с вымогательством полиции.
* Цель системы: Автоматическая фильтрация и маркировка контента, "неугодного" китайскому правительству. Предполагаемое основное применение - цензура китайских граждан в сети, но возможно и использование для улучшения цензурных возможностей китайских AI-моделей.
* Преимущества перед традиционной цензурой: В отличие от ручной фильтрации по ключевым словам, AI позволяет значительно повысить эффективность и "гранулярность" контроля информации, выявляя даже скрытые формы "инакомыслия", включая "политическую сатиру" и исторические аналогии, критикующие текущую власть.

* Приоритетные темы для цензуры: Социально-политические темы, способные вызвать общественное недовольство:
Скандалы, связанные с загрязнением окружающей среды и безопасностью продуктов питания.
Финансовое мошенничество.
Трудовые споры.
"Политическая сатира" и критика "текущих политических деятелей" (даже через исторические аллюзии).
"Тайваньская политика".
Военные вопросы: передвижения войск, учения, вооружения.

* Обнаружение "мягкой" оппозиции: Система нацелена на выявление даже неявного несогласия, например, анекдотов, иллюстрирующих "мимолетность власти" через идиому "когда дерево падает, обезьяны разбегаются" (китайская поговорка).
* Упоминания "Тайваня": Слово "Тайвань" (台湾) упоминается в обучающих данных более 15 000 раз, что подчеркивает фокус на тайваньской тематике.
* Предназначение для "работы с общественным мнением": Датасет помечен как предназначенный для "public opinion work", что указывает на его связь с китайскими государственными органами, вероятно, с Cyberspace Administration of China (CAC), отвечающей за цензуру и пропаганду в интернете.

Утечка данных подтверждает тенденцию использования AI для усиления репрессивных мер. Ранее OpenAI сообщала об использовании китайскими структурами LLM для мониторинга антиправительственных постов и дискредитации китайских диссидентов. В отличие от простых алгоритмов блокировки по ключевым словам, AI позволяет осуществлять более тонкую и масштабную цензуру, постоянно совершенствуясь по мере обучения на новых данных.


>>Click here to continue<<

Компьютерный клуб | Технологии




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)