Aan de slagGa gratis aan de slag

Missende waarden identificeren

De eerste stap vóór je missende waarden gaat imputeren, is nagaan of er missende waarden in je data zitten en zo ja, uit welke groep ze komen.

Voor dezelfde restaurant_data-gegevens die je in de les zag, heeft een medewerker per ongeluk de fooi-bedragen van 65 tafels gewist. De vraag is: hoeveel missende invoeren komen van tafels waar rokers aanwezig waren versus tafels zonder rokers?

Jouw taak is om beide gegevenssets te groeperen op basis van de variabele smoker, het aantal aanwezige (niet-missende) waarden te tellen en daarna het verschil te berekenen.

We imputeren fooi-bedragen zodat je de in de les behandelde concepten kunt oefenen. Vanuit ethisch oogpunt moet je in het echte leven geen financiële data imputeren, omdat dit als fraude kan worden beschouwd.

Deze oefening maakt deel uit van de cursus

Efficiënte code schrijven met pandas

Cursus bekijken

Oefeninstructies

  • Groepeer de data op basis van rookstatus.
  • Bereken het aantal niet-missende waarden in elke groep.
  • Print het aantal missende waarden in elke groep.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Group both objects according to smoke condition
restaurant_nan_grouped = restaurant_nan.____(____)

# Store the number of present values
restaurant_nan_nval = restaurant_nan_grouped['tip'].____()

# Print the group-wise missing entries
print(restaurant_nan_grouped['total_bill'].count() - ____)
Code bewerken en uitvoeren