Voorspellingen berekenen

In de praktijk willen we vaak het gefitte logistische regressiemodel gebruiken om kansen te schatten en betrouwbaarheidsintervallen voor deze schattingen te construeren. Gebruikmakend van de wells-gegevensset en het model 'switch ~ arsenic', gaan we ervan uit dat je nieuwe observaties wells_test hebt die niet in de trainingsset zaten, en je de kans wilt voorspellen om over te stappen naar de dichtstbijzijnde veilige waterput.

Je doet dit met de methode .predict().

Let op dat .predict() meerdere argumenten accepteert:

exog - nieuwe observaties (testgegevensset)
transform = True - past de formule van de fit y ~ x toe op de data.

Als exog niet is opgegeven, worden de kansen berekend voor de trainingsgegevensset.

Het model wells_fit en de gegevenssets wells en wells_test zijn al voor je geladen in de werkruimte.

Deze oefening maakt deel uit van de cursus

Generalized Linear Models in Python

Bekijk cursus

Oefeninstructies

Gebruik het gefitte model wells_fit om voorspellingen te berekenen op de testdata wells_test en sla dit op als prediction.
Voeg prediction toe aan de bestaande dataframe wells_test en noem de kolom prediction.
Gebruik print() om de eerste 5 rijen van wells_test met de kolommen switch, arsenic en prediction weer te geven. Gebruik de pandas-functie head() om alleen de eerste 5 rijen te bekijken.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Compute predictions for the test sample wells_test and save as prediction
prediction = ____.predict(exog = ____)

# Add prediction to the existing data frame wells_test and assign column name prediction
____[____] = ____

# Examine the first 5 computed predictions
print(____[[____, ____, ____]].head())

Code bewerken en uitvoeren