Extreme waarden identificeren
Nu je een DataFrame hebt gemaakt met het percentage van Hispaanse raciale zelfidentificatie per staat, ga je dit verder verkennen. Begin met het maken van een boxplot met seaborn.
Je zoekt ook de staten met het hoogste of laagste percentage Hispanics die zich als bepaalde rassen identificeren. Hiervoor pas je de methode squeeze() toe. Deze methode zet een DataFrame met één rij om naar een series (heeft geen effect op een DataFrame met meer dan één rij).
pandas is geïmporteerd. De DataFrame states_hr is geladen en bevat percentages van raciale zelfidentificatie voor 7 verschillende rascategorieën.
Deze oefening maakt deel uit van de cursus
US Census-gegevens analyseren in Python
Oefeninstructies
- Maak een boxplot door de parameter
dataop de naam van de DataFrame te zetten. (orient = "h"tekent de boxplots horizontaal.) - Gebruik
squeezeom de staat te tonen met de grootste waarde in de kolomhispanic_white. - Gebruik
squeezeom de staat te tonen met de kleinste waarde in de kolomhispanic_other. - Let op: heel weinig Hispanics identificeren zich als Aziatisch, maar één staat is een sterke uitschieter. Gebruik
squeezeom de staat te tonen met de grootste waarde in de kolomhispanic_asian.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()
# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)