Aan de slagGa gratis aan de slag

Vul dummywaarden

Net zoals je zocht naar een relatie tussen missende waarden over kolommen, is het ook belangrijk om te kijken naar relaties tussen missende en niet-missende waarden over kolommen. Dit helpt je om factoren voor ontbrekendheid in de data te ontdekken.

BMI vs Serum Insulin

In de figuur hierboven zie je dat de missende waarden van Serum Insulin verspreid zijn over het volledige bereik van BMI-waarden. Dat betekent dus dat er geen relatie is!

In deze oefening ga je een functie schrijven om dummywaarden te genereren die helpen om de bovenstaande scatterplot te maken (in de volgende oefening). Het genereren van dummywaarden houdt in dat je willekeurige waarden schaalt naar het bereik van een kolom met een schaalfactor en de waarden verschuift.

De functie rand() is voor je geïmporteerd uit numpy.random.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def fill_dummy_values(df):
  df_dummy = df.copy(deep=True)
  for col_name in df_dummy:
    col = df_dummy[col_name]
    # Calculate column range
    col_range = ___ - ___
  return df_dummy
Code bewerken en uitvoeren