Umgang mit fehlenden Daten
In dieser Übung arbeitest du mit einer weiteren Version der accounts-Daten, die fehlende Werte in den Spalten cust_id und acct_amount enthält.
Du möchtest herausfinden, wie viele eindeutige Kundinnen und Kunden die Bank hat und wie hoch der durchschnittliche Betrag pro Kunde ist. Du weißt, dass Zeilen mit fehlender cust_id dir dabei nicht helfen, und dass acct_amount im Durchschnitt meist dem 5-Fachen von inv_amount entspricht.
In dieser Übung entfernst du Zeilen aus accounts mit fehlenden cust_ids und imputierst fehlende Werte von inv_amount mithilfe von Domänenwissen. dplyr und assertive sind geladen und accounts ist verfügbar.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create accounts_clean
accounts_clean <- accounts %>%
# Filter to remove rows with missing cust_id
___
accounts_clean