IniziaInizia gratis

Imputazione dei valori mancanti con i percentili

In questo esercizio continuerai a esercitarti nell’imputazione dei valori mancanti. A differenza dell’esercizio precedente, però, userai i percentili al posto delle medie per calcolare le imputazioni. Usare i percentili è un ottimo modo per ottenere imputazioni conservative. L’imputazione dei valori mancanti in una colonna usando i percentili prevede i seguenti passaggi:

  • Rimuovi i valori mancanti dalla colonna di interesse.
  • Calcola poi, ad esempio, il 70º percentile dei valori della colonna da cui hai appena rimosso i mancanti.
  • Il valore “peggiore al 70º percentile” dipende dalla colonna su cui calcoli il percentile:
    • Per esempio, avere molte attività è considerato positivo, quindi un basso ammontare di attività è peggiore. Il valore peggiore al 70º percentile delle attività corrisponde in realtà al 30º percentile delle attività.
    • Analogamente, un elevato ammontare di passività è considerato negativo. Quindi il valore peggiore al 70º percentile delle passività è semplicemente il suo 70º percentile.

pandas è stato caricato con l’alias pd e NumPy con l’alias np. È stato caricato per te un DataFrame di pandas chiamato dataset. Include la colonna "Total Current Liabilities", che contiene alcuni valori mancanti.

Questo esercizio fa parte del corso

Analizzare i bilanci con Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___

# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____

print(impute_by_company)
print(impute_by_comp_type)
Modifica ed esegui il codice