LoslegenKostenlos loslegen

Logistische Regression für Brustkrebs

In der letzten Übung haben wir eine erste Auswertung der Daten vorgenommen. In dieser Übung definierst du einen Trainings- und Test-Split für ein logistisch-regressions-Modell auf einem Brustkrebs-Datensatz. Das ist ein wichtiger erster Schritt, um alle Machine-Learning-Modelle auszuführen.

Der Brustkrebs-Datensatz ist ein Beispieldatensatz aus sklearn mit verschiedenen Merkmalen von Patientinnen und Patienten und einem Zielwert, der angibt, ob die Person an Brustkrebs erkrankt ist oder nicht. Die Daten liegen als Dictionary vor: Die Hauptdaten sind in einem Array namens data gespeichert, die Zielwerte in einem Array namens target. Entsprechend sind cancer_data.data die Features und cancer_data.target die Targets. Beispieldaten sind als cancer_data geladen, außerdem pandas als pd. LogisticRegression ist über sklearn.linear_model verfügbar.

Diese Übung ist Teil des Kurses

CTR-Vorhersage mit Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Definiere X bzw. y mithilfe von data bzw. target.
  • Verwende für X_train und y_train die ersten 300 Stichproben von X bzw. y, zum Beispiel X[:300] für X_train.
  • Verwende für X_test und y_test den Rest von X bzw. y (ohne die ersten 300 Stichproben), zum Beispiel X[300:] für X_test.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Code bearbeiten und ausführen