Aan de slagGa gratis aan de slag

Missende waarden imputeren met percentielen

In deze oefening ga je verder met het imputeren van missende waarden. Anders dan in de vorige oefening gebruik je nu percentielen in plaats van gemiddelden voor de imputaties. Percentielen geven vaak conservatieve schattingen. Missende waarden in een kolom imputeren met percentielen bestaat uit de volgende stappen:

  • Verwijder de missende waarden uit de kolom van interesse.
  • Bereken vervolgens bijvoorbeeld het 70e percentiel van de waarden in die kolom waar je net de missende waarden uit hebt verwijderd.
  • De 70e-percentiel ‘slechtste’ waarde hangt af van de kolom waarvoor je het percentiel berekent:
    • Een grote hoeveelheid activa wordt als positief gezien, dus een lage hoeveelheid activa is slechter. De 70e-percentiel ‘slechtste’ waarde voor activa is in feite gewoon het 30e percentiel van activa.
    • Omgekeerd geldt dat een hoge schuldenlast als negatief wordt gezien. Dus de 70e ‘slechtste’ waarde voor passiva is simpelweg het 70e percentiel.

pandas is geladen als pd en NumPy als np. Een pandas DataFrame met de naam dataset is voor je geladen. Het bevat de kolom "Total Current Liabilities", waarin enkele waarden ontbreken.

Deze oefening maakt deel uit van de cursus

Financiële overzichten analyseren in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___

# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____

print(impute_by_company)
print(impute_by_comp_type)
Code bewerken en uitvoeren