TG Telegram Group & Channel
Библиотека собеса по Data Science | вопросы с собеседований | United States America (US)
Create: Update:

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.
📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.
📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;
📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;
📍Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.
📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.
📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;
📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;
📍Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1


>>Click here to continue<<

Библиотека собеса по Data Science | вопросы с собеседований




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)