rating durch Gruppenmedian ersetzen
In der letzten Übung hast du die fehlenden Werte in der Spalte rating durch den Spaltenmedian ersetzt. Geht das noch besser? Ja! Du kannst die fehlenden Werte durch den Median der Bewertungen von Schokoladen derselben Firma ersetzen. Lass uns das umsetzen!
Es gibt eine vordefinierte Funktion replace_missing(), die zwei Argumente erwartet – einen DataFrame group und eine Spalte col. Sie versucht, den Median der Spalte col zu berechnen und gibt ihn zurück, wenn das gelingt. Falls die Medianberechnung fehlschlägt, zum Beispiel weil keine Werte vorhanden sind, wird ein vordefinierter Wert zurückgegeben.
Der Datensatz chocolates sowie die Pakete DataFrames und Statistics sind bereits für dich geladen.
Diese Übung ist Teil des Kurses
Datenmanipulation in Julia
Anleitung zur Übung
- Gruppiere
chocolatesnachcompanyund iteriere über den GroupedDataFrame. - Selektiere in jeder Gruppe mit
ismissing()und der Spalteratingund ersetze die fehlenden Werte durch den Wert der Funktionreplace_missing().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Group by company and iterate
for group in ____(____)
# Subset each group using ismissing() and the rating column, assign a new value
group[____, ____] .= replace_missing(group, :rating)
end
println(describe(chocolates, :nmissing))