Genera valori fittizi
Proprio come hai cercato di trovare una relazione tra valori mancanti nelle colonne, è anche importante cercare una relazione tra valori mancanti e non mancanti tra colonne. Questo ti aiuterà a individuare eventuali fattori che causano la mancanza di dati.
Nella figura sopra, puoi osservare che i valori mancanti di Serum Insulin sono distribuiti lungo l’intero intervallo dei valori di BMI. Questo implica che non c’è alcuna relazione!
In questo esercizio, scriverai una funzione per generare valori fittizi per aiutarti a creare il grafico a dispersione qui sopra (nel prossimo esercizio). Le operazioni per generare valori fittizi prevedono di scalare valori casuali sull’intervallo di una colonna con un fattore di scala e di traslarli.
La funzione rand() è stata importata per te da numpy.random.
Questo esercizio fa parte del corso
Gestire i dati mancanti in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
def fill_dummy_values(df):
df_dummy = df.copy(deep=True)
for col_name in df_dummy:
col = df_dummy[col_name]
# Calculate column range
col_range = ___ - ___
return df_dummy