LoslegenKostenlos loslegen

Spalten und Zeilen löschen

Du hast zuvor Flugdaten aus einer CSV-Datei geladen. Du wirst ein Modell entwickeln, das vorhersagt, ob ein bestimmter Flug Verspätung haben wird oder nicht.

In dieser Übung musst du die Daten wie folgt kürzen:

  1. Entfernen einer Spalte ohne Infos und
  2. Entferne Zeilen, die keine Infos dazu haben, ob ein Flug Verspätung hatte oder nicht.

Die Daten sind unter „ flights ” verfügbar.

Hinweis:: Es könnte hilfreich sein, die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch mal durchzugehen.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lösch die Spalte „ flight “.
  • Finde heraus, wie viele Datensätze fehlende Werte in der Spalte „ delay “ haben.
  • Lösch alle Datensätze, bei denen Werte in der Spalte „ delay “ fehlen.
  • Entferne Datensätze mit fehlenden Werten in einer beliebigen Spalte und erhalte die Anzahl der verbleibenden Zeilen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Code bearbeiten und ausführen