Extreme Werte identifizieren

Nachdem du ein DataFrame mit dem prozentualen Anteil hispanischer Selbsteinordnung nach Bundesstaat erstellt hast, untersuchst du es weiter – beginnend mit einem Boxplot in seaborn.

Du ermittelst außerdem die Bundesstaaten mit dem größten oder kleinsten Prozentsatz an Hispanics, die sich bestimmten „Races“ zuordnen. Dazu verwendest du die Methode squeeze(). Diese Methode wandelt ein DataFrame mit nur einer Zeile in eine Series um (bei einem DataFrame mit mehr als einer Zeile hat sie keine Wirkung).

pandas ist importiert. Das DataFrame states_hr ist geladen und enthält Prozentangaben zur rassischen Selbsteinordnung für 7 verschiedene Kategorien.

Diese Übung ist Teil des Kurses

<Kurs>Analyse von US-Volkszählungsdaten mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle einen Boxplot, indem du den Parameter data auf den Namen des DataFrames setzt. (orient = "h" zeichnet die Boxplots horizontal.)
Zeige mit squeeze den Bundesstaat mit dem größten Wert in der Spalte hispanic_white.
Zeige mit squeeze den Bundesstaat mit dem kleinsten Wert in der Spalte hispanic_other.
Beachte: Sehr wenige Hispanics ordnen sich als Asian ein, aber ein Bundesstaat ist ein hoher Ausreißer. Zeige mit squeeze den Bundesstaat mit dem größten Wert in der Spalte hispanic_asian.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()

# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)

Code bearbeiten und ausführen