Creare una variabile fittizia per i valori mancanti
Dato un basetable che contiene una variabile predittiva "total_donations", con il numero totale di donazioni effettuate da un donatore. Questa variabile può avere valori mancanti, a indicare che il donatore non ha mai fatto donazioni. Si tratta di un'informazione importante di per sé, quindi è opportuno creare una variabile "no_donations" che indichi se "total_donations" è mancante.
Questo esercizio fa parte del corso
Analisi predittiva intermedia in Python
Istruzioni dell'esercizio
- Crea una nuova colonna "no_donations" in
basetableche valga 1 setotal_donationsè mancante e 0 altrimenti. - Calcola il numero di valori mancanti in
total_donationse assegnalo anumber_na. - Stampa la percentuale di valori mancanti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create dummy indicating missing values
basetable["____"] = pd.Series([____ if b else ____ for b in basetable["total_donations"].isna()])
# Calculate number of missing values
number_na = sum(____["no_donations"] == ____)
# Calculate percentage of missing values
print(round(____ / ____(____), 2))