Controleren op ontbrekende waarden
Ontbrekende waarden identificeren is belangrijk voor je analyse. Met dezelfde gegevensset haal je het totale aantal ontbrekende waarden op door zowel over de rijen als de kolommen in de gegevensset te itereren. Als je ontbrekende waarden vindt, zijn extra methoden nodig om hiermee om te gaan, zoals Imputer uit sklearn. Je moet ontbrekende waarden afhandelen, anders wordt het lastig om een goede CTR-voorspelling te doen.
Voorbeelddate in DataFrame‑vorm is geladen als df. pandas als pd is ook beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
CTR voorspellen met Machine Learning in Python
Oefeninstructies
- Print een basisoverzicht van de kolommen met
.info(). - Print de ontbrekende waarden per kolom met
.isnull()(vergeet de haakjes niet!). - Print het totale aantal ontbrekende waarden per rij met
axis = 1en.sum().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print info
print(df.____)
# Print missing values by column
print(df.____.sum(____ = 0))
# Print total number of missing values in rows
print(df.____.sum(____ = 1).____)