Vul dummywaarden

Net zoals je zocht naar een relatie tussen missende waarden over kolommen, is het ook belangrijk om te kijken naar relaties tussen missende en niet-missende waarden over kolommen. Dit helpt je om factoren voor ontbrekendheid in de data te ontdekken.

In de figuur hierboven zie je dat de missende waarden van Serum Insulin verspreid zijn over het volledige bereik van BMI-waarden. Dat betekent dus dat er geen relatie is!

In deze oefening ga je een functie schrijven om dummywaarden te genereren die helpen om de bovenstaande scatterplot te maken (in de volgende oefening). Het genereren van dummywaarden houdt in dat je willekeurige waarden schaalt naar het bereik van een kolom met een schaalfactor en de waarden verschuift.

De functie rand() is voor je geïmporteerd uit numpy.random.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

def fill_dummy_values(df):
  df_dummy = df.copy(deep=True)
  for col_name in df_dummy:
    col = df_dummy[col_name]
    # Calculate column range
    col_range = ___ - ___
  return df_dummy

Code bewerken en uitvoeren