Fehlende Investoren
Der Umgang mit fehlenden Daten ist eine der häufigsten Data-Science-Aufgaben. Es gibt eine Vielzahl von Typen des Fehlens und eine Vielzahl von Lösungen für fehlende Daten.
Du hast soeben eine neue Version des banking
-DataFrame erhalten, die Daten über den gehaltenen und investierten Betrag für neue und bestehende Kunden enthält. Es gibt jedoch Zeilen mit fehlenden Werten für inv_amount
.
Du weißt mit Sicherheit, dass die meisten Kunden unter 25 Jahren noch kein Anlagekonto haben, und vermutest, dass dies der Grund für das Fehlen sein könnte. Die Pakete pandas
, missingno
und matplotlib.pyplot
wurden als pd
, msno
bzw. plt
importiert. Der DataFrame banking
befindet sich in deiner Umgebung.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Print number of missing values in banking
print(____)
# Visualize missingness matrix
____
____