LoslegenKostenlos loslegen

Entfernen von Spalten und Zeilen

Du hast zuvor Flugdaten einer Fluggesellschaft aus einer CSV-Datei geladen. Du wirst ein Modell entwickeln, das vorhersagt, ob ein bestimmter Flug verspätet ist oder nicht.

In dieser Übung musst du diese Daten um Folgendes kürzen:

  1. eine uninformative Spalte zu entfernen und
  2. Zeilen entfernen, die keine Informationen darüber enthalten, ob ein Flug verspätet war oder nicht.

Die Daten sind unter flights verfügbar.

Hinweis:: Es kann hilfreich sein, die Folien aus den Lektionen im Folien-Panel neben der IPython-Shell zu überarbeiten.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Entferne die flight Säule.
  • Finde heraus, wie viele Datensätze fehlende Werte in der Spalte delay haben.
  • Entferne Datensätze mit fehlenden Werten in der Spalte delay.
  • Entferne Datensätze mit fehlenden Werten in einer beliebigen Spalte und ermittle die Anzahl der verbleibenden Zeilen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Code bearbeiten und ausführen