Функция train_test_split()
из библиотеки sklearn разбивает данные на обучающую и тестовую выборки.
Это важно, чтобы проверить, как хорошо модель работает на невидимых данных.
from sklearn.model_selection import train_test_split
X = [[1], [2], [3], [4], [5]]
y = [0, 0, 1, 1, 1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
print("Обучение:", X_train)
print("Тест:", X_test)
🗣️ Почему важно:
• Модель не должна учиться на тех же данных, на которых её оценивают
• test_size указывает, какой процент данных пойдёт на тест
• random_state нужен для воспроизводимости
Это один из самых базовых, но обязательных шагов в любом ML-проекте