Técnicas para multicolinearidade - engenharia de atributos
Multicolinearidade é um problema comum que pode afetar seu desempenho em qualquer contexto de Machine Learning. Saber explicar esse detalhe pode elevar sua justificativa de modelagem de boa para excelente e realmente destacar você em uma entrevista.
Neste exercício, você vai praticar a criação de um modelo baseline usando Regressão Linear no conjunto de dados diabetes e explorar algumas métricas de saída. Depois, você vai praticar técnicas para explorar visualmente a correlação entre as variáveis independentes e, por fim, fará engenharia de atributos em 2 variáveis altamente correlacionadas.
Para as duas primeiras etapas, use X_train, X_test, y_train e y_test, que já foram importados para o seu ambiente.
Além disso, todos os pacotes relevantes já foram importados para você:
pandas como pd, train_test_split de sklearn.model_selection, LinearRegression de sklearn.linear_model, mean_squared_error e r2_score de sklearn.metrics, matplotlib.pyplot como plt e seaborn como sns.
Este exercício faz parte do curso
Praticando perguntas de entrevista de Machine Learning em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)
# Coefficient estimates
print('Coefficients: \n', lin_mod.____)
# Mean squared error
print("Mean squared error: %.2f"
% ____(____, ____))
# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))