Aan de slagBegin gratis

Logistische regressie voor borstkanker

In de vorige oefening hebben we een eerste verkenning van de data gedaan. In deze oefening definieer je een train-test-splitsing voor een logistiek regressiemodel op een borstkanker-gegevensset. Dit is een belangrijke eerste stap bij het draaien van alle Machine Learning-modellen.

De borstkanker-gegevensset is een voorbeeldgegevensset uit sklearn met verschillende kenmerken van patiënten en een doelvariabele die aangeeft of de patiënt wel of geen borstkanker heeft. De data komt in een dictionary-formaat, waarbij de hoofddata is opgeslagen in een array data en de doelwaarden in een array target. Dus cancer_data.data bevat de features en cancer_data.target de targets. De voorbeelddata is geladen als cancer_data, en pandas is geïmporteerd als pd. LogisticRegression is beschikbaar via sklearn.linear_model.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Bekijk cursus

Oefeninstructies

  • Definieer X en y met respectievelijk data en target.
  • Maak X_train en y_train de eerste 300 samples van respectievelijk X en y, met X[:300] voor X_train.
  • Maak X_test en y_test de rest van respectievelijk X en y (dus exclusief de eerste 300 samples), met X[300:] voor X_test.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Code bewerken en uitvoeren