LoslegenKostenlos loslegen

Extreme Werte identifizieren

Nachdem du ein DataFrame mit dem prozentualen Anteil hispanischer Selbsteinordnung nach Bundesstaat erstellt hast, untersuchst du es weiter – beginnend mit einem Boxplot in seaborn.

Du ermittelst außerdem die Bundesstaaten mit dem größten oder kleinsten Prozentsatz an Hispanics, die sich bestimmten „Races“ zuordnen. Dazu verwendest du die Methode squeeze(). Diese Methode wandelt ein DataFrame mit nur einer Zeile in eine Series um (bei einem DataFrame mit mehr als einer Zeile hat sie keine Wirkung).

pandas ist importiert. Das DataFrame states_hr ist geladen und enthält Prozentangaben zur rassischen Selbsteinordnung für 7 verschiedene Kategorien.

Diese Übung ist Teil des Kurses

Analyse von US-Volkszählungsdaten mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen Boxplot, indem du den Parameter data auf den Namen des DataFrames setzt. (orient = "h" zeichnet die Boxplots horizontal.)
  • Zeige mit squeeze den Bundesstaat mit dem größten Wert in der Spalte hispanic_white.
  • Zeige mit squeeze den Bundesstaat mit dem kleinsten Wert in der Spalte hispanic_other.
  • Beachte: Sehr wenige Hispanics ordnen sich als Asian ein, aber ein Bundesstaat ist ein hoher Ausreißer. Zeige mit squeeze den Bundesstaat mit dem größten Wert in der Spalte hispanic_asian.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import seaborn and matplotlib.plt
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Create a boxplot
sns.boxplot(data = ____, orient = "h")
plt.show()

# Show states with extreme values in various columns
print(states_hr.nlargest(1, ____).squeeze())
print(states_hr.nsmallest(____).____)
print(____)
Code bearbeiten und ausführen