1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Łączenie tabel II

W PySparku łączenie tabel odbywa się za pomocą metody .join() na obiektach DataFrame. Metoda ta przyjmuje trzy argumenty. Pierwszy to drugi DataFrame, który chcesz połączyć z pierwszym. Drugi argument, on, to nazwa kolumny (lub kolumn) klucza podana jako ciąg znaków. Kolumny klucza muszą mieć taką samą nazwę w obu tabelach. Trzeci argument, how, określa rodzaj złączenia. W tym kursie zawsze będziemy używać wartości how="leftouter".

Zbiór danych flights oraz nowy zbiór danych airports są już dostępne w twoim obszarze roboczym.

Instrukcje

100 XP
  • Sprawdź zawartość DataFrame airports, wywołując metodę .show(). Zwróć uwagę, która kolumna klucza pozwoli ci połączyć airports z tabelą flights.
  • Zmień nazwę kolumny faa w DataFrame airports na dest, przypisując wynik wywołania airports.withColumnRenamed("faa", "dest") z powrotem do zmiennej airports.
  • Połącz DataFrame flights z DataFrame airports po kolumnie dest, wywołując metodę .join() na obiekcie flights. Zapisz wynik jako flights_with_airports.
    • Pierwszym argumentem powinien być drugi DataFrame, czyli airports.
    • Argument on powinien wskazywać kolumnę klucza.
    • Argument how powinien mieć wartość "leftouter".
  • Wywołaj .show() na flights_with_airports, aby ponownie przejrzeć dane. Zwróć uwagę na nowe informacje, które zostały dodane.