Técnicas para tratar la multicolinealidad - ingeniería de características

La multicolinealidad es un problema habitual que puede afectar al rendimiento en cualquier contexto de Machine Learning. Saber cómo hablar de este detalle puede llevar tu explicación de modelado de buena a excelente y ayudarte a destacar en una entrevista.

En este ejercicio, practicarás creando un modelo de referencia con Linear Regression sobre el conjunto de datos diabetes y explorarás algunas de las métricas de salida. Después, pondrás en práctica técnicas para explorar visualmente la correlación entre las variables independientes y, por último, harás ingeniería de características con 2 variables que están altamente correlacionadas.

Para los dos primeros pasos, usa X_train, X_test, y_train y y_test, que ya se han importado en tu espacio de trabajo.

Además, ya tienes importados todos los paquetes relevantes: pandas como pd, train_test_split de sklearn.model_selection, LinearRegression de sklearn.linear_model, mean_squared_error y r2_score de sklearn.metrics, matplotlib.pyplot como plt y seaborn como sns.

Este ejercicio forma parte del curso

Practicing Machine Learning Interview Questions in Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)

# Coefficient estimates
print('Coefficients: \n', lin_mod.____)

# Mean squared error
print("Mean squared error: %.2f"
      % ____(____, ____))

# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))

Editar y ejecutar código