IniziaInizia gratis

Rimozione degli outlier basata su percentuale

Un modo per evitare che una piccola porzione di dati abbia un effetto eccessivamente negativo è rimuovere una certa percentuale dei valori più grandi e/o più piccoli nella colonna. Questo si può fare trovando il quantile rilevante e tagliando i dati usando una maschera. Questo approccio è particolarmente utile se ritieni che i valori più alti nel tuo insieme di dati vadano evitati. Quando utilizzi questo metodo, ricorda che anche in assenza di outlier verrà comunque rimossa la stessa percentuale superiore N dall’insieme di dati.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Trova il 95° quantile della colonna ConvertedSalary.
  • Riduci il DataFrame so_numeric_df per mantenere tutte le righe in cui ConvertedSalary è inferiore al suo 95° quantile.
  • Traccia l’istogramma di so_numeric_df[['ConvertedSalary']].
  • Traccia l’istogramma di trimmed_df[['ConvertedSalary']].

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)

# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]

# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()

# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()
Modifica ed esegui il codice