Fehlende Werte ersetzen
Eine andere Möglichkeit zur Bereinigung fehlender Werte besteht darin, sie alle durch denselben Wert zu ersetzen. Bei numerischen Variablen kannst du zum Beispiel fehlende Werte durch 0 ersetzen – das machst du in dieser Übung. Zu beachten ist, dass du beim Ersetzen eines fehlenden Wertes eine Annahme darüber triffst, was dieser Wert bedeutet. In dieser Übung gehst du bei einer fehlenden Verkaufszahl davon aus, dass in dieser Woche keine Avocados der entsprechenden Größe verkauft wurden.
Mithilfe von Histogrammen siehst du, wie das Ersetzen fehlender Werte die Verteilung einer Variable beeinflussen kann. Du kannst Histogramme für mehrere Variablen gleichzeitig wie folgt erstellen:
dogs[["height_cm", "weight_kg"]].hist()
pandas
wurde als pd
importiert und matplotlib.pyplot
wurde als plt
importiert. Der Datensatz avocados_2016
ist auch schon verfügbar.
Diese Übung ist Teil des Kurses
Datenbearbeitung mit pandas
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# List the columns with missing values
cols_with_missing = ["small_sold", "large_sold", "xl_sold"]
# Create histograms showing the distributions cols_with_missing
avocados_2016[____].____
# Show the plot
____