Entfernen von Spalten und Zeilen
Du hast zuvor Flugdaten einer Fluggesellschaft aus einer CSV-Datei geladen. Du wirst ein Modell entwickeln, das vorhersagt, ob ein bestimmter Flug verspätet ist oder nicht.
In dieser Übung musst du diese Daten um Folgendes kürzen:
- eine uninformative Spalte zu entfernen und
- Zeilen entfernen, die keine Informationen darüber enthalten, ob ein Flug verspätet war oder nicht.
Die Daten sind unter flights
verfügbar.
Hinweis:: Es kann hilfreich sein, die Folien aus den Lektionen im Folien-Panel neben der IPython-Shell zu überarbeiten.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Entferne die
flight
Säule. - Finde heraus, wie viele Datensätze fehlende Werte in der Spalte
delay
haben. - Entferne Datensätze mit fehlenden Werten in der Spalte
delay
. - Entferne Datensätze mit fehlenden Werten in einer beliebigen Spalte und ermittle die Anzahl der verbleibenden Zeilen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())