CommencerCommencer gratuitement

Identifier les valeurs extrêmes

Vous avez créé un DataFrame avec le pourcentage d’auto-identification raciale « Hispanic » par État. Poursuivez l’exploration en commençant par créer un boxplot avec seaborn.

Vous allez aussi trouver les États ayant les pourcentages les plus élevés ou les plus faibles d’Hispaniques s’identifiant à certaines races. Pour cela, vous allez appliquer la méthode squeeze(). Cette méthode convertit un DataFrame à une seule ligne en série (sans effet sur un DataFrame de plusieurs lignes).

pandas a été importé. Le DataFrame states_hr est chargé ; il contient les pourcentages d’auto-identification raciale pour 7 catégories de race.

Cet exercice fait partie du cours

Analyzing US Census Data in Python

Afficher le cours

Instructions

  • Créez un boxplot en passant le DataFrame au paramètre data. (orient = "h" trace les boxplots à l’horizontale.)
  • Avec squeeze, affichez l’État ayant la plus grande valeur de la colonne hispanic_white.
  • Avec squeeze, affichez l’État ayant la plus petite valeur de la colonne hispanic_other.
  • Notez que très peu d’Hispaniques s’identifient comme asiatiques, mais un État est un fort outlier. Avec squeeze, affichez l’État ayant la plus grande valeur de la colonne hispanic_asian.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()

# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)
Modifier et exécuter le code