Logistische Regression für Brustkrebs
In der letzten Übung haben wir eine erste Auswertung der Daten vorgenommen. In dieser Übung definierst du einen Trainings- und Test-Split für ein logistisch-regressions-Modell auf einem Brustkrebs-Datensatz. Das ist ein wichtiger erster Schritt, um alle Machine-Learning-Modelle auszuführen.
Der Brustkrebs-Datensatz ist ein Beispieldatensatz aus sklearn mit verschiedenen Merkmalen von Patientinnen und Patienten und einem Zielwert, der angibt, ob die Person an Brustkrebs erkrankt ist oder nicht. Die Daten liegen als Dictionary vor: Die Hauptdaten sind in einem Array namens data gespeichert, die Zielwerte in einem Array namens target. Entsprechend sind cancer_data.data die Features und cancer_data.target die Targets. Beispieldaten sind als cancer_data geladen, außerdem pandas als pd. LogisticRegression ist über sklearn.linear_model verfügbar.
Diese Übung ist Teil des Kurses
CTR-Vorhersage mit Machine Learning in Python
Anleitung zur Übung
- Definiere
Xbzw.ymithilfe vondatabzw.target. - Verwende für
X_trainundy_traindie ersten 300 Stichproben vonXbzw.y, zum BeispielX[:300]fürX_train. - Verwende für
X_testundy_testden Rest vonXbzw.y(ohne die ersten 300 Stichproben), zum BeispielX[300:]fürX_test.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]