🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.