Techniken bei Multikollinearität – Feature Engineering

Multikollinearität ist ein häufiges Problem, das deine Performance in jedem Machine-Learning-Kontext beeinflussen kann. Wenn du dieses Detail gut erklären kannst, hebst du deine Modellbeschreibung von gut auf großartig – und punktest im Interview.

In dieser Übung erstellst du zunächst ein Basismodell mit Linearer Regression auf dem Datensatz diabetes und schaust dir einige Ausgabemetriken an. Anschließend übst du Techniken, um die Korrelation zwischen den unabhängigen Variablen visuell zu untersuchen, bevor du schließlich Feature Engineering an 2 stark korrelierten Variablen vornimmst.

Für die ersten beiden Schritte verwendest du X_train, X_test, y_train und y_test, die bereits in deinen Workspace importiert wurden.

Zusätzlich wurden alle relevanten Pakete für dich importiert: pandas als pd, train_test_split aus sklearn.model_selection, LinearRegression aus sklearn.linear_model, mean_squared_error und r2_score aus sklearn.metrics, matplotlib.pyplot als plt und seaborn als sns.

Diese Übung ist Teil des Kurses

ML-Vorstellungsgespräche in Python üben

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)

# Coefficient estimates
print('Coefficients: \n', lin_mod.____)

# Mean squared error
print("Mean squared error: %.2f"
      % ____(____, ____))

# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))

Code bearbeiten und ausführen