Spalten und Zeilen löschen
Du hast zuvor Flugdaten aus einer CSV-Datei geladen. Du wirst ein Modell entwickeln, das vorhersagt, ob ein bestimmter Flug Verspätung haben wird oder nicht.
In dieser Übung musst du die Daten wie folgt kürzen:
- Entfernen einer Spalte ohne Infos und
- Entferne Zeilen, die keine Infos dazu haben, ob ein Flug Verspätung hatte oder nicht.
Die Daten sind unter „ flights
” verfügbar.
Hinweis:: Es könnte hilfreich sein, die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch mal durchzugehen.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Lösch die Spalte „
flight
“. - Finde heraus, wie viele Datensätze fehlende Werte in der Spalte „
delay
“ haben. - Lösch alle Datensätze, bei denen Werte in der Spalte „
delay
“ fehlen. - Entferne Datensätze mit fehlenden Werten in einer beliebigen Spalte und erhalte die Anzahl der verbleibenden Zeilen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())