Logistische Regression für Brustkrebs
In der letzten Übung haben wir eine erste Auswertung der Daten vorgenommen. In dieser Übung definierst du einen Trainings- und Test-Split für ein logistisch-regressions-Modell auf einem Brustkrebs-Datensatz. Das ist ein wichtiger erster Schritt, um alle Machine-Learning-Modelle auszuführen.
Der Brustkrebs-Datensatz ist ein Beispieldatensatz aus sklearn mit verschiedenen Merkmalen von Patientinnen und Patienten und einem Zielwert, der angibt, ob die Person an Brustkrebs erkrankt ist oder nicht. Die Daten liegen als Dictionary vor: Die Hauptdaten sind in einem Array namens data gespeichert, die Zielwerte in einem Array namens target. Entsprechend sind cancer_data.data die Features und cancer_data.target die Targets. Beispieldaten sind als cancer_data geladen, außerdem pandas als pd. LogisticRegression ist über sklearn.linear_model verfügbar.
Diese Übung ist Teil des Kurses
<Kurs>CTR-Vorhersage mit Machine Learning in Python</Kurs>Übungsanweisungen
- Definiere
Xbzw.ymithilfe vondatabzw.target. - Verwende für
X_trainundy_traindie ersten 300 Stichproben vonXbzw.y, zum BeispielX[:300]fürX_train. - Verwende für
X_testundy_testden Rest vonXbzw.y(ohne die ersten 300 Stichproben), zum BeispielX[300:]fürX_test.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]