Technieken voor multicollineariteit - feature engineering
Multicollineariteit is een veelvoorkomend probleem dat de prestaties in elke Machine Learning-context kan beïnvloeden. Weten hoe je dit ogenschijnlijk kleine detail uitlegt, kan je modeluitleg van goed naar uitstekend tillen en je echt laten opvallen in een interview.
In deze oefening maak je eerst een basismodel met Linear Regression op de diabetes-gegevensset en bekijk je een paar outputmetrics. Daarna ga je visueel de correlaties tussen de onafhankelijke variabelen verkennen en voer je tot slot feature engineering uit op 2 sterk gecorreleerde variabelen.
Voor de eerste twee stappen gebruik je X_train, X_test, y_train en y_test, die al in je werkruimte staan.
Daarnaast zijn alle relevante pakketten alvast voor je geïmporteerd:
pandas als pd, train_test_split uit sklearn.model_selection, LinearRegression uit sklearn.linear_model, mean_squared_error en r2_score uit sklearn.metrics, matplotlib.pyplot als plt en seaborn als sns.
Deze oefening maakt deel uit van de cursus
Machine Learning-sollicitatievragen oefenen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)
# Coefficient estimates
print('Coefficients: \n', lin_mod.____)
# Mean squared error
print("Mean squared error: %.2f"
% ____(____, ____))
# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))