Rimozione degli outlier basata su percentuale
Un modo per evitare che una piccola porzione di dati abbia un effetto eccessivamente negativo è rimuovere una certa percentuale dei valori più grandi e/o più piccoli nella colonna. Questo si può fare trovando il quantile rilevante e tagliando i dati usando una maschera. Questo approccio è particolarmente utile se ritieni che i valori più alti nel tuo insieme di dati vadano evitati. Quando utilizzi questo metodo, ricorda che anche in assenza di outlier verrà comunque rimossa la stessa percentuale superiore N dall’insieme di dati.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Trova il 95° quantile della colonna
ConvertedSalary. - Riduci il DataFrame
so_numeric_dfper mantenere tutte le righe in cuiConvertedSalaryè inferiore al suo 95° quantile. - Traccia l’istogramma di
so_numeric_df[['ConvertedSalary']]. - Traccia l’istogramma di
trimmed_df[['ConvertedSalary']].
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Find the 95th quantile
quantile = so_numeric_df['ConvertedSalary'].____(____)
# Trim the outliers
trimmed_df = so_numeric_df[so_numeric_df['ConvertedSalary'] < ____]
# The original histogram
so_numeric_df[['ConvertedSalary']].____()
plt.show()
plt.clf()
# The trimmed histogram
trimmed_df[['ConvertedSalary']].____()
plt.show()