Extreme waarden identificeren

Nu je een DataFrame hebt gemaakt met het percentage van Hispaanse raciale zelfidentificatie per staat, ga je dit verder verkennen. Begin met het maken van een boxplot met seaborn.

Je zoekt ook de staten met het hoogste of laagste percentage Hispanics die zich als bepaalde rassen identificeren. Hiervoor pas je de methode squeeze() toe. Deze methode zet een DataFrame met één rij om naar een series (heeft geen effect op een DataFrame met meer dan één rij).

pandas is geïmporteerd. De DataFrame states_hr is geladen en bevat percentages van raciale zelfidentificatie voor 7 verschillende rascategorieën.

Deze oefening maakt deel uit van de cursus

US Census-gegevens analyseren in Python

Bekijk cursus

Oefeninstructies

Maak een boxplot door de parameter data op de naam van de DataFrame te zetten. (orient = "h" tekent de boxplots horizontaal.)
Gebruik squeeze om de staat te tonen met de grootste waarde in de kolom hispanic_white.
Gebruik squeeze om de staat te tonen met de kleinste waarde in de kolom hispanic_other.
Let op: heel weinig Hispanics identificeren zich als Aziatisch, maar één staat is een sterke uitschieter. Gebruik squeeze om de staat te tonen met de grootste waarde in de kolom hispanic_asian.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()

# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)

Code bewerken en uitvoeren