Наглядно о том, зачем нужна нормализация признаков
Простая анимация, которая показывает фиксированное число итераций градиентного спуска, стартующего из одной и той же точки для хороших и плохих задач.
В хороших задачах направления примерно одинаковы с точки зрения значений минимизируемой функции. Для квадратичной функции (aka линейная регрессия) это измеряется числом обусловленности гессиана.
Явление характерно не только для квадратичных функций - это одна из главных причин наличия разных нормализаций в нейросетях.
>>Click here to continue<<