Imputazione dei valori mancanti con i percentili
In questo esercizio continuerai a esercitarti nell’imputazione dei valori mancanti. A differenza dell’esercizio precedente, però, userai i percentili al posto delle medie per calcolare le imputazioni. Usare i percentili è un ottimo modo per ottenere imputazioni conservative. L’imputazione dei valori mancanti in una colonna usando i percentili prevede i seguenti passaggi:
- Rimuovi i valori mancanti dalla colonna di interesse.
- Calcola poi, ad esempio, il 70º percentile dei valori della colonna da cui hai appena rimosso i mancanti.
- Il valore “peggiore al 70º percentile” dipende dalla colonna su cui calcoli il percentile:
- Per esempio, avere molte attività è considerato positivo, quindi un basso ammontare di attività è peggiore. Il valore peggiore al 70º percentile delle attività corrisponde in realtà al 30º percentile delle attività.
- Analogamente, un elevato ammontare di passività è considerato negativo. Quindi il valore peggiore al 70º percentile delle passività è semplicemente il suo 70º percentile.
pandas è stato caricato con l’alias pd e NumPy con l’alias np. È stato caricato per te un DataFrame di pandas chiamato dataset. Include la colonna "Total Current Liabilities", che contiene alcuni valori mancanti.
Questo esercizio fa parte del corso
Analizzare i bilanci con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___
# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____
print(impute_by_company)
print(impute_by_comp_type)