Técnicas para multicolinearidade - engenharia de atributos

Multicolinearidade é um problema comum que pode afetar seu desempenho em qualquer contexto de Machine Learning. Saber explicar esse detalhe pode elevar sua justificativa de modelagem de boa para excelente e realmente destacar você em uma entrevista.

Neste exercício, você vai praticar a criação de um modelo baseline usando Regressão Linear no conjunto de dados diabetes e explorar algumas métricas de saída. Depois, você vai praticar técnicas para explorar visualmente a correlação entre as variáveis independentes e, por fim, fará engenharia de atributos em 2 variáveis altamente correlacionadas.

Para as duas primeiras etapas, use X_train, X_test, y_train e y_test, que já foram importados para o seu ambiente.

Além disso, todos os pacotes relevantes já foram importados para você: pandas como pd, train_test_split de sklearn.model_selection, LinearRegression de sklearn.linear_model, mean_squared_error e r2_score de sklearn.metrics, matplotlib.pyplot como plt e seaborn como sns.

Este exercicio faz parte do curso

Praticando perguntas de entrevista de Machine Learning em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)

# Coefficient estimates
print('Coefficients: \n', lin_mod.____)

# Mean squared error
print("Mean squared error: %.2f"
      % ____(____, ____))

# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))

Editar e Executar Código