Aan de slagGa gratis aan de slag

Logistische regressie voor borstkanker

In de vorige oefening hebben we een eerste verkenning van de data gedaan. In deze oefening definieer je een train-test-splitsing voor een logistiek regressiemodel op een borstkanker-gegevensset. Dit is een belangrijke eerste stap bij het draaien van alle Machine Learning-modellen.

De borstkanker-gegevensset is een voorbeeldgegevensset uit sklearn met verschillende kenmerken van patiënten en een doelvariabele die aangeeft of de patiënt wel of geen borstkanker heeft. De data komt in een dictionary-formaat, waarbij de hoofddata is opgeslagen in een array data en de doelwaarden in een array target. Dus cancer_data.data bevat de features en cancer_data.target de targets. De voorbeelddata is geladen als cancer_data, en pandas is geïmporteerd als pd. LogisticRegression is beschikbaar via sklearn.linear_model.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Definieer X en y met respectievelijk data en target.
  • Maak X_train en y_train de eerste 300 samples van respectievelijk X en y, met X[:300] voor X_train.
  • Maak X_test en y_test de rest van respectievelijk X en y (dus exclusief de eerste 300 samples), met X[300:] voor X_test.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Code bewerken en uitvoeren