Extreme Werte identifizieren
Nachdem du ein DataFrame mit dem prozentualen Anteil hispanischer Selbsteinordnung nach Bundesstaat erstellt hast, untersuchst du es weiter – beginnend mit einem Boxplot in seaborn.
Du ermittelst außerdem die Bundesstaaten mit dem größten oder kleinsten Prozentsatz an Hispanics, die sich bestimmten „Races“ zuordnen. Dazu verwendest du die Methode squeeze(). Diese Methode wandelt ein DataFrame mit nur einer Zeile in eine Series um (bei einem DataFrame mit mehr als einer Zeile hat sie keine Wirkung).
pandas ist importiert. Das DataFrame states_hr ist geladen und enthält Prozentangaben zur rassischen Selbsteinordnung für 7 verschiedene Kategorien.
Diese Übung ist Teil des Kurses
Analyse von US-Volkszählungsdaten mit Python
Anleitung zur Übung
- Erstelle einen Boxplot, indem du den Parameter
dataauf den Namen des DataFrames setzt. (orient = "h"zeichnet die Boxplots horizontal.) - Zeige mit
squeezeden Bundesstaat mit dem größten Wert in der Spaltehispanic_white. - Zeige mit
squeezeden Bundesstaat mit dem kleinsten Wert in der Spaltehispanic_other. - Beachte: Sehr wenige Hispanics ordnen sich als Asian ein, aber ein Bundesstaat ist ein hoher Ausreißer. Zeige mit
squeezeden Bundesstaat mit dem größten Wert in der Spaltehispanic_asian.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()
# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)