Это три типа механизмов пропусков в данных — и от понимания того, какой из них у вас, зависит, как правильно обрабатывать пропущенные значения.
🔍MCAR (Missing Completely at Random) Пропуски появляются совершенно случайно — не зависят ни от наблюдаемых, ни от ненаблюдаемых переменных.
📌 Пример: датчик случайно перестал записывать температуру из-за сбоя связи. ✅ Что делать: удаление строк или простая импутация — допустимо, модель почти не искажается.
🔍MAR (Missing At Random) Пропуски зависят от других наблюдаемых признаков, но не от самого недостающего значения.
📌 Пример: доход клиента не указан, но это чаще бывает у молодых пользователей — и возраст у нас есть. ✅ Что делать: множественная импутация (Multiple Imputation), модели, учитывающие другие признаки, работают хорошо.
🔍MNAR (Missing Not At Random) Пропуски зависят от самого значения, которое пропущено. То есть в данных есть систематическая причина, скрытая внутри пропуска.
📌 Пример: люди с высоким доходом не указывают его в анкете — именно потому, что он высокий. ✅ Что делать: здесь простые методы не помогут. Часто требуется: — Моделировать механизм пропуска явно. — Включать индикаторы пропусков как отдельные признаки. — Использовать экспертные знания или специализированные байесовские подходы.
Это три типа механизмов пропусков в данных — и от понимания того, какой из них у вас, зависит, как правильно обрабатывать пропущенные значения.
🔍MCAR (Missing Completely at Random) Пропуски появляются совершенно случайно — не зависят ни от наблюдаемых, ни от ненаблюдаемых переменных.
📌 Пример: датчик случайно перестал записывать температуру из-за сбоя связи. ✅ Что делать: удаление строк или простая импутация — допустимо, модель почти не искажается.
🔍MAR (Missing At Random) Пропуски зависят от других наблюдаемых признаков, но не от самого недостающего значения.
📌 Пример: доход клиента не указан, но это чаще бывает у молодых пользователей — и возраст у нас есть. ✅ Что делать: множественная импутация (Multiple Imputation), модели, учитывающие другие признаки, работают хорошо.
🔍MNAR (Missing Not At Random) Пропуски зависят от самого значения, которое пропущено. То есть в данных есть систематическая причина, скрытая внутри пропуска.
📌 Пример: люди с высоким доходом не указывают его в анкете — именно потому, что он высокий. ✅ Что делать: здесь простые методы не помогут. Часто требуется: — Моделировать механизм пропуска явно. — Включать индикаторы пропусков как отдельные признаки. — Использовать экспертные знания или специализированные байесовские подходы.