Logistische regressie voor borstkanker
In de vorige oefening hebben we een eerste verkenning van de data gedaan. In deze oefening definieer je een train-test-splitsing voor een logistiek regressiemodel op een borstkanker-gegevensset. Dit is een belangrijke eerste stap bij het draaien van alle Machine Learning-modellen.
De borstkanker-gegevensset is een voorbeeldgegevensset uit sklearn met verschillende kenmerken van patiënten en een doelvariabele die aangeeft of de patiënt wel of geen borstkanker heeft. De data komt in een dictionary-formaat, waarbij de hoofddata is opgeslagen in een array data en de doelwaarden in een array target. Dus cancer_data.data bevat de features en cancer_data.target de targets. De voorbeelddata is geladen als cancer_data, en pandas is geïmporteerd als pd. LogisticRegression is beschikbaar via sklearn.linear_model.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Definieer
Xenymet respectievelijkdataentarget. - Maak
X_traineny_trainde eerste 300 samples van respectievelijkXeny, metX[:300]voorX_train. - Maak
X_testeny_testde rest van respectievelijkXeny(dus exclusief de eerste 300 samples), metX[300:]voorX_test.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]