👀Почему one-hot encoding может быть неэффективен при большом количестве категорией One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:
📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение. 📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются. 📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.
В таких случаях лучше использовать альтернативы: 📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории; 📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях; 📍Frequency encoding — замена категории на частоту её появления.
Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.
👀Почему one-hot encoding может быть неэффективен при большом количестве категорией One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:
📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение. 📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются. 📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.
В таких случаях лучше использовать альтернативы: 📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории; 📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях; 📍Frequency encoding — замена категории на частоту её появления.
Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.