Identifier les valeurs extrêmes
Vous avez créé un DataFrame avec le pourcentage d’auto-identification raciale « Hispanic » par État. Poursuivez l’exploration en commençant par créer un boxplot avec seaborn.
Vous allez aussi trouver les États ayant les pourcentages les plus élevés ou les plus faibles d’Hispaniques s’identifiant à certaines races. Pour cela, vous allez appliquer la méthode squeeze(). Cette méthode convertit un DataFrame à une seule ligne en série (sans effet sur un DataFrame de plusieurs lignes).
pandas a été importé. Le DataFrame states_hr est chargé ; il contient les pourcentages d’auto-identification raciale pour 7 catégories de race.
Cet exercice fait partie du cours
Analyzing US Census Data in Python
Instructions
- Créez un boxplot en passant le DataFrame au paramètre
data. (orient = "h"trace les boxplots à l’horizontale.) - Avec
squeeze, affichez l’État ayant la plus grande valeur de la colonnehispanic_white. - Avec
squeeze, affichez l’État ayant la plus petite valeur de la colonnehispanic_other. - Notez que très peu d’Hispaniques s’identifient comme asiatiques, mais un État est un fort outlier. Avec
squeeze, affichez l’État ayant la plus grande valeur de la colonnehispanic_asian.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()
# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)