Variar el tamaño del conjunto de entrenamiento
El tamaño de tus conjuntos de entrenamiento y prueba influye en el rendimiento del modelo. Los modelos aprenden mejor cuando cuentan con más datos de entrenamiento. Sin embargo, existe el riesgo de que hagan overfitting al conjunto de entrenamiento y no generalicen bien a datos nuevos, por lo que, para evaluar correctamente la capacidad de generalización del modelo, necesitas suficientes datos de prueba. En consecuencia, hay un equilibrio importante y una compensación entre cuánto usas para entrenar y cuánto reservas para probar.
Hasta ahora, has usado un 70% para entrenamiento y un 30% para prueba. Ahora vamos a usar el 80% de los datos para entrenamiento y evaluaremos cómo cambia el rendimiento del modelo.
Este ejercicio forma parte del curso
Marketing Analytics: Predicción de churn de clientes en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import train_test_split
from sklearn.model_selection import train_test_split
# Create feature variable
X = telco.drop('Churn', axis=1)
# Create target variable
y = telco['Churn']
# Create training and testing sets
X_train, X_test, y_train, y_test = ____